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Donald E. Knuth (唐纳德 .E , 克 努 特 ， 中 文 ， 


名 高 德 纳 ) 是 算法 和 程序 设计 技术 的 先驱 者 ， 
是 计算 机 排版 系统 TFX 和 METAFONT 的 发 明 
者 ,他 因 这 些 成 就 和 大 量 创造 性 的 影响 深远 的 
著作 (19 部 书 和 160 篇 论文 ) 而 誉 满 全 球 。 作 
为 斯 坦 福 大 学 计算 机 程序 设计 艺术 的 荣誉 退休 
教授 ,他 当前 正 全 神 贯 注 于 完成 其 关于 计算 机 
科学 的 史诗 性 的 七 卷 集 。 这 一 伟大 工程 在 1962 
年 他 还 是 加 利 福 尼 亚 理 工学 院 的 研究 生 时 就 开 
始 了 。Knuth 教授 获得 了 许多 奖项 和 荣誉 ， 包 





括 美 国 计 算 机 协会 图 灵 奖 (ACM Turing, 


Award ),. 美国 前 总 统 卡 特 授 予 的 科学 金奖 
(Medal of Science)， 美 国 数学 学 会 斯 蒂 尔 奖 


( AMS Steele Prize )， 以 及 由 于 发 明 先 进 技术 而 


于 1996 年 11 月 采 获 的 极 受 尊 重 的 京都 奖 (Kyoto 
Prizej。 现 与 其 妻 ] 记 生活 于 斯 坦 福 校 园 内 。 


欲 了 解 这 位 杰出 科学 家 和 作家 的 更 多 信息 ,请 
访问 


www.aw.com/cseng/authors/knuth 


和 欲 了 解 本 书 和 其 它 各 卷 的 更 多 信息 ,请 访问 ， 


www—cs—faculty.stanford.edu/~knuth 


欲 了 解 中 译本 的 更 多 信息 ,请 访问 


www.ndip.com.cn/computer/taocp 
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(本 书 如 有 印 装 错误 ,我 社 负 责 调换 ) 


Tt 


Cookery is become on ort, 

0 Noble SCience ; 

Cooks are gentlemen. 

京 调 法 成 了 一 种 艺术， 

一 门 高 深 的 科学 ; 

厨师 是 有 载 养 的 人 。 

— TITUS LIVIUS, Ab Urbe Condito XXXIX. Vi 
(Robert Burton, Anotomy of Meloncholy 1.2.2.2) 


本 书 形成 了 第 1 卷 第 2 章 关 于 信息 结构 内 容 的 自然 续篇 ,因为 它 为 第 1 卷 的 基 
本 结构 化 思想 增加 了 线性 有 序数 据 的 概念 。 

本 书 书 名 “排序 与 查找 "可 能 给 人 以 印象 ,仿佛 它 仅仅 是 为 那些 关心 通用 排序 程 
序 编制 或 信息 检索 应 用 的 系统 程序 员 编 写 的 。 然 而 ,事实 上 排序 与 查找 的 领域 还 提 
供 了 一 个 理想 的 园地 ,以 讨论 范围 广泛 而 且 很 重要 的 一 般 性 问题 : 

“如 何 发 现 好 的 算法 ? 

如何 改进 给 定 的 算法 或 程序 ? 

如何 从 数学 上 分 析 算 法 的 效率 ? 

.对 于 相同 的 任务 ,人 们 如 何在 不 同 的 算法 之 间 进 行 合 理 的 选择 ? 

:在 什么 意义 之 下 ,可 以 证 明 某 个 算法 是 “最 好 ”的 ? 

“计算 理论 同 实 际 考 虑 如 何 相互 影响 ? 

` 像 磁带 、 磁 鼓 或 磁盘 这 样 的 外 存 , 如何 能 有 效 地 用 于 大 型 数据 库 ? 

其 实 ,我 确信 ,程序 设计 的 每 一 个 重要 方面 ,实际 上 都 离 不 开 排 序 或 查找 1 

本 卷 由 全 套 书 的 第 5 章 和 第 6 章 组 成 。 第 5 章 讨论 的 是 排序 ;这 是 一 个 很 大 的 
课题 ,已 经 把 它 主 要 划分 成 两 大 部 分 , 即 内 部 排序 和 外 部 排序 。 还 有 补充 的 几 节 , 提 
出 了 关于 排列 (5.1 节 ) 和 最 优 排 序 算法 (5.3 节 ) 的 辅助 理论 。 第 6 章 讨 论 了 在 表 或 
文件 中 查找 特定 项 目的 问题 ;这 又 细 分 成 顺序 查找 .通过 键 码 (key) 比 较 查找 、 按 数 
字 性 质 查 找 “ 散 列 " 查 找 等 几 种 方法 ,而 后 考虑 了 比较 困难 的 辅 键 码 (secondary key) 
查找 问题 。 在 这 两 章 之 间 存 在 着 令 人 惊奇 的 相互 影响 以 及 强烈 的 类 似 。 除 了 在 第 
2 章 中 所 讨论 的 信息 结构 以 外 ,这 里 还 讨论 了 信息 结构 的 两 种 重要 的 变形 , 即 优先 
队列 (5.2.3 小 节 ) 和 表示 成 平衡 树 的 线性 表 (6.2.3 小 节 )。 

和 第 1 卷 及 第 2 卷 一 样 ,本 书包 括 了 大 量 在 其 它 出 版 物 上 从 未 出 现 过 的 许多 内 


了 


前 言 


容 。 许 多 人 善意 地 写 信 或 口头 向 我 表达 了 他 们 的 看 法 ,我 希望 , 当 我 以 我 自己 的 文 
字 来 表现 这 些 内 容 的 时 候 ,我 没有 很 糟糕 地 曲解 它们 。 

我 未 曾 有 时 间 系 统 地 查找 专利 文献 ;确实 ,我 项 视 当 前 寻求 算法 专利 的 倾向 (人 参 
见 $.4.5 小 节 )。 如 果 某 人 把 在 本 书 中 未 曾 引 用 的 有 关 专 利 的 一 个 副本 寄 给 我 , 那 
我 将 在 未 来 的 版 本 中 恭敬 地 引用 它 。 然 而 我 要 鼓励 人 们 继续 发 扬 悠 久 的 数学 传统 ， 
把 最 新 发 现 的 算法 投 进 公众 领域 。 与 其 防范 他 人 从 某 个 人 对 计算 机 科学 的 贡献 中 
获 益 ,不 如 寻求 其 它 更 好 的 谋生 手段 。 因 为 它 与 防范 自己 的 计算 机 成 果 被 他 人 利用 
相 比 会 给 人 们 带 来 更 好 的 生活 。 

在 我 从 教学 工作 上 退休 下 来 之 前 ,我 曾 把 这 本 书 用 做 大 学 三 年 级 至 研究生 层次 
数据 结构 第 二 门 课 的 教材 ,并 省 略 掉 了 大 部 分 数学 内 容 。 我 也 曾 使 用 本 书 的 数学 部 
分 作为 研究 生 层 次 算法 分 析 课 程 的 基础 ,并 特别 强调 了 5.1,5.2.2,6.3 和 6.4 诸 
节 。 关 于 具体 的 计算 复杂 性 方面 的 研究 生 课 程 也 可 以 以 5.3 节 和 5.4.4 小 节 , 以 及 
第 2 卷 的 4.3.3,4.6.3 和 4.6.4 诸 小 节 为 基础 。 

除了 偶尔 讨论 第 1 卷 中 说 明 的 MIX 计算 机 外 ,本 书 的 绝 大 部 分 内 容 都 是 独立 、 
自 成 体系 的 。 附 录 B 包含 有 对 于 所 使 用 的 数学 记号 的 概述 ,其 中 的 一 些 记 号 同 传统 
的 数学 书 中 找到 的 记号 有 些 差别 。 


第 2 版 前 言 


这 个 新 版 本 是 同 第 1 卷 及 第 2 卷 的 第 3 版 相 匹配 的 。 那 两 卷 的 出 版 用 上 了 
TEX 和 METAFONT 系统 ,使 我 得 以 庆祝 这 两 个 专门 为 本 套 书 开发 的 出 版 系统 的 完成 。 

本 书 转 换 成 电子 格式 使 我 有 机 会 重新 检查 正文 的 每 一 个 字 和 每 一 个 标点 符号 。 
在 添加 或 许 某 些 更 成 熟 的 记述 的 同时 ,我 试图 保留 原来 文字 的 朝气 。 已 经 增加 了 数 
十 个 新 的 习题 ,对 数 十 个 老 习 题 也 给 出 了 新 的 改进 了 的 答案 。 变 动 随 处 可 见 , 但 最 
主要 的 是 在 5.1.4 小 节 ( 关 于 排列 和 图 表 ),5.3 节 ( 关 于 最 优 排序 ) ,3$.4.9 小 节 ( 关 
于 磁盘 排序 ) ,6.2.2 小 节 ( 关 于 炉 ),6.4 广 (关于 通用 散 列 法 ) 以 及 6.5 节 ( 天 于 多 维 
树 和 检索 结构 )。 


您 和 而 (计算 机 程序 设计 艺术 ) 的 写作 仍然 是 进行 中 的 工作 。 关于 排序 与 查 

找 的 研究 仍然 以 非 几 的 速度 发 展 着 。 因 此 本 书 的 某 些 部 分 加 上 了 “正在 施工 "的 图 

标 以 对 该 部 分 内 容 还 不 是 最 新 表示 菊 意 。 例 如 ,如 果 我 今天 仍 向 本 科 生 讲授 数据 结 

构 ,我 肯定 将 花 些 时 间 讨 论 像 树 积 (treap) 这 样 的 随机 化 结构 ;但 在 本 书 中 ,我 只 能 引 

用 有 关 这 个 课题 的 主要 文章 ,告诉 大 家 将 来 的 6.2.5 小 节 的 写作 计划 。 我 的 文件 夹 

里 已 充满 了 许多 重要 的 素材 ,我 打算 从 现在 起 用 大 约 17 年 时 间 ,把 这 些 素材 包含 在 
N 


前 各 








第 3 卷 最 后 的 辉煌 的 第 3 版 中 ! 但 是 在 此 之 前 我 必须 首先 完成 第 4 着 和 第 5 卷 ,而 
且 除 非 绝 对 必要 ,否则 我 不 想 使 它们 的 问世 再 有 任何 拖延 了 。 

我 对 于 过 去 35 年 来 帮助 我 搜集 和 改进 本 书 内 容 的 数 百 位 人 们 表示 衷心 的 感 
谢 。 准 备 这 一 新 版 本 的 大 部 分 艰苦 的 工作 是 由 Phyllis Winkler( 他 把 第 1 版 的 文本 
转换 成 TeX 的 形式 ) 和 Silvio Levy( 他 编辑 文字 并 绘制 了 数 十 张 插图 ), 以 及 Jeffrey 
Oldham( 他 把 原来 250 张 以 上 的 插图 转换 成 METAPOST 格式 ) 完 成 的 。Addison-Wes- 
ley 生产 部 的 同仁 们 也 一 如 既往 地 提供 了 极 大 的 帮助 。 

我 已 经 改正 了 细心 的 读者 们 在 第 1 版 中 发 现 的 ,以 及 天 哪 , 竟 无 人 发 觉 的 那些 
错误 ,而 且 ,我 已 竭尽 全 力 试 图 避免 在 新 的 内 容 中 再 引进 新 的 错误 。 然 而 ,我 设想 ， 
某 些 欠缺 之 处 仍 在 所 难免 ,我 想 尽早 地 改正 它们 。 因 此 我 将 很 乐意 地 文 付 2.56 美 
元 给 每 一 个 技术 、 印 刷 或 历史 错误 的 头 一 个 发 现 者 ”。 在 版 权 页 上 所 引 的 网 页 中 包 
含 了 已 向 我 报告 过 的 所 有 错误 的 更 正 。 


Stanford, California D.E.K. 
1998 年 2 月 


There afe certain common Privileges of a Writer, 

the Benefit whereof{, I hope, there will be no Reason to doubt:; 
Particularly, that where I am not understood, it shall be concluded, 
that something very useful and profound is coucht underneath. 
一 位 作者 名 有 未 些 公认 的 等 权 ， 

我 认为 ,这 作 事 的 好 处 没有 理由 加 以 勾 比 ) 

特别 是, 站 我 还 不 被 人 们 理解 的 地 方 ， 

戎 后 董 汤 者 美 种 非常 有 用 和 意义 深远 的 东西 。 

—JONATHAN SWIFT,Tale of a Tub ,Preface(1704 ) 


x 中 文 版 已 按 2003 年 1 月 25 日 的 最 新 勘误 表 更 正 了 原 书 的 错误 。 网 页 http:/[{www. ndip. com. cn/com- 
puter/taocp 上 也 将 列 出 对 中 文 版 的 勘误 表 及 从 作者 处 获得 的 最 新 信息 。 一 一 本 书 责 任 编辑 
Bd 


关于 习题 的 说 明 


本 套 书 的 习题 婚 可 用 于 自学 ,也 可 用 于 课堂 练习 。 无 论 是 谁 ,如 果 想 纯粹 地 通 
过 阅读 ,而 不 将 所 阅读 的 信息 应 用 到 特定 问题 上 ,并 由 此 牵引 思考 先前 阅读 的 内 容 ， 
就 想 学 到 一 门 学 问 ,纵然 可 能 , 那 也 是 很 困难 的 。 其 次 ,对 于 我 们 自己 的 发 现 , 我 们 
总 是 领会 得 最 透 。 因 此 ,习题 形成 了 这 一 套 书 的 一 个 重要 部 分 ;我 着 意 使 这 些 习 题 
含有 丰富 的 信息 ,而 且 也 尽量 选择 既 有 趣 又 有 启发 性 的 习题 。 

在 许多 书 里 ,容易 的 习题 被 随机 地 混杂 于 极端 困难 的 问题 当中 。 有 时 这 是 不 合适 
的 ,因为 读者 预先 想 要 知道 一 道 习 题 花 多 少时 间 否则 他 们 可 能 就 越过 这 些 习 题 了 
事 。 这 一 情况 的 典型 例子 是 由 Richard Bellman 所 著 的 Dynamic Programming 一 书 。 这 
是 一 本 重要 的 先驱 性 的 论著 ,其 中 在 某 些 章 的 末尾 ,在 “习题 和 研究 题 " 的 标题 下 ,把 一 
组 问题 收集 在 一 起 ,而 且 一 些 极其 平凡 的 问题 出 现在 一 些 深 入 的 .还 未 被 解决 的 问题 
当中 。 据 说 ,有 人 曾 问 过 Bellman 博士 ,怎样 区 分 习题 和 研究 题 。 他 回答 说 :“ 如 果 你 能 
解决 它 , 那 它 就 是 一 道 习 题 ,否则 它 就 是 一 个 研究 题 。 

但 在 这 一 类 书 里 把 研究 问题 和 很 容易 的 习题 都 包括 进来 确 有 其 道理 ;因此 ,为 
使 读者 免 于 陷入 确定 哪 是 习题 哪 是 研究 题 的 困境 ,我 给 习题 注 明 了 等 级 分 ,以 指出 
困难 的 程度 。 这 些 分 数 大 体 具 有 下 列 意义 : 





分 数 解释 

00 一 个 极其 容易 的 习题 。 如 果 你 已 理解 正文 的 内 容 , 就 可 能 立即 做 出 
回答 。 这 样 一 道 题 几乎 总 是 可 以 “眉头 一 皱 " 就 把 它 做 出 。 

10 一 个 简单 的 问题 , 它 要 求 你 去 思考 刚刚 学 过 的 内 容 , 但 绝 不 意味 着 是 
困难 的 。 你 应 当 有 能 力 在 顶 多 一 分 钟 之 内 就 把 它 做 出 。 在 获得 解答 
的 过 程 中 可 能 要 用 到 笔 和 纸 。 

20 一 个 普通 的 问题 。 它 检查 你 对 正文 内 容 的 基本 理解 ,但 你 可 能 需要 
15 或 20 分 钟 才 能 完整 地 回答 它 。 

30 一 个 中 等 难度 和 /或 复杂 的 问题 。 这 个 题目 可 能 需要 两 个 小 时 以 上 的 
工作 才能 令 人 满意 地 解决 。 或 者 甚至 更 长 时 间 ,如果 电视 机 在 开 着 的 


40 确实 是 一 个 十 分 困难 或 元 长 的 问题 。 在 学 校 里 , 它 将 适合 于 作为 一 
个 学 期 的 课程 设计 。 一 个 学 生 应 当 有 人 能力 在 相当 长 的 时 间 里 来 解决 
它 ,但 这 个 解 不 会 是 平凡 的 。 

50 就 作者 在 编写 本 书 时 所 知 ,这 是 一 个 还 未 被 令 人 满意 地 解决 的 问题 ， 
尽管 已 经 有 很 多 人 做 了 尝试 。 如 有 果 你 已 经 找到 了 这 样 一 个 问题 的 答 
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案 ,你 应 当 把 它 写 出 来 发 表 。 其 次 ,本 书 的 作者 将 乐意 尽快 地 听 到 天 
于 解答 的 消息 (当然 ,假定 它 是 正确 的 )。 

通过 在 这 个 “对 数 " 尺 上 的 内 插 , 其 它 分 数 的 意义 也 就 清楚 了 。 例 如 17 分 将 表示 
比 普通 的 题 更 为 简单 的 一 道 习题 。 一 个 随后 被 某 个 读者 解决 了 的 50 分 的 题 在 本 书后 
来 的 版 本 中 将 以 45 的 分 数 出 现 ,而且 会 在 互联 网 上 的 勘误 表 中 刊 出 (参见 版 权 页 )。 

分 数 除 以 5 的 余数 表示 所 要 求 的 详细 工作 量 。 因 此 分 数 是 24 的 习题 可 能 要 比 
分 数 是 25 的 题 花 费 更 长 的 时 间 来 求解 ,但 后 者 将 要 求 更 多 的 创造 性 。 

作者 已 经 认真 地 试图 指定 精确 的 分 数 ,但 是 提出 问题 的 人 要 想 确切 地 知道 对 于 
求解 的 另 一 个 人 , 它 的 难度 如 何 , 肯 定 是 困难 的 ;而 且 每 个 人 都 会 有 较 其 他 人 更 为 适 
应 的 问题 类 型 。 只 能 希望 这 些 分 数 较 好 地 反映 了 习题 的 困难 程度 ,希望 读者 把 它们 
当做 是 一 般 的 导 引 ,而 不 应 作为 绝对 的 指标 。 

本 书 是 为 具有 不 同 程度 的 数学 训练 和 素养 的 读者 写 的 ;因此 有 些 习 题 是 特意 为 
有 更 多 的 数学 基础 的 读者 提供 的 。 如 果 一 道 题 的 出 题 动机 或 涉及 的 数学 概念 超越 
了 主要 兴趣 仅仅 是 算法 编程 本 身 的 读者 应 掌握 的 程度 , 则 在 分 数 前 边 加 上 M。 如 
果 一 道 习题 的 答案 必须 涉及 在 本 书 中 未 子 提供 的 微 积 分 或 其 它 高 等 数学 知识 , 则 对 
这 道 题 标 以 “HM” 的 字母 。“ HM ”标记 并 不 必定 意味 着 困难 。 

某 些 习 题 的 前 边 标 有 三 角 符 “了”; 这 一 标志 说 明 是 特别 有 启发 性 的 问题 ,因而 特别 
予以 推荐 。 当 然 ,并 不 期 望 读 者 /学 生来 求解 所 有 的 习题 。 所 以 标 出 了 那些 看 起 来 最 有 
价值 的 部 分 (这 并 不 意味 着 贬低 其 它 习题 !1)。 每 个 读者 至 少 应 该 尝试 去 解 分 数 是 10 或 
者 更 低 的 所 有 问题 ;箭头 可 以 帮助 指出 应 该 对 具有 较 高 分 数 的 哪些 问题 予以 优先 考虑 。 

在 答案 部 分 中 已 经 列 出 大 多 数 习 题 的 解答 ,请 明智 地 使 用 它们 。 在 你 已 真正 地 
做 出 努力 亲自 解决 问题 之 前 ,不 要 去 翻 答案 ,除非 你 确实 没有 时 间 来 做 这 一 特定 的 
问题 。 在 获得 了 你 自己 的 解答 或 者 对 该 题 做 了 郑重 的 尝试 之 后 ,你 可 能 会 感到 答案 
是 有 启发 和 有 帮助 的 。 给 出 的 解答 通常 十 分 简短 ,作者 认为 你 已 经 认真 地 通过 目 己 
的 方法 做 过 求解 尝试 因而 略 去 了 其 细节 。 有 时 解答 所 提供 的 信息 比 所 要 求 的 为 少 ， 
但 通常 都 是 更 多 的 。 十 分 可 能 ,你 有 比 这 里 给 的 更 好 的 答案 ,或 者 在 答案 中 你 发 现 
一 个 错误 。 在 这 样 的 情况 下 ,作者 将 乐意 知道 详细 的 情况 。 在 本 书 以 后 的 版 本 中 将 
在 适当 地 方 刊登 出 这 些 改 进 了 的 答案 以 及 提供 这 些 解 的 人 的 姓名 。 

当做 一 道 习 题 时 ,一 般 地 你 可 以 使 用 前 边 习题 的 答案 ,除非 明确 地 禁止 这 样 做 。 
在 对 习题 打分 时 ,已 经 考虑 到 这 一 点 了 ,因此 很 可 能 第 n +1 题 的 分 数 比 第 ” 题 还 
要 低 , 尽 管 它 把 第 n 题 的 结果 作为 一 个 特殊 情况 包括 进来 。 
代码 含义 立即 可 解 的 
10 ”简单 的 (一 分 钟 ) 
20 ”一 般 水 平 (一 刻 钟 ) 
> 特别 推荐 的 30 ”难度 适中 
M 面向 数学 的 40 ”学 期 设计 
HM ” 要求“ 高 等 数学 "的 人 研究 题 
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习题 


1.[00] 分 数 “M 20 "意味 着 什么 ? 
2.[10] 一 本 教科 书 中 的 习题 对 读者 有 什么 价值 ? 
3.[HM45] 证 明 当 ”是 一 个 整数 且 关 >2 时 ,方程 冯 + 内 = 富 无 正 整 数 z,y,y 的 解 。 


Two hours daily exercise ... will be enough 
to keep a hack fit for his work. 

每 天 两 小 时 的 训 鱼 …… 将 足以 

令 一 匹 马 答 好 地 工作 。 

—M. H. MAHON,The Handy Horse Book (1865) 
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6.3 数字 查 投 … 
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There is nothing more difficult to toke in hond, 
more perilous to conduct ,or more uncertoin in its success, 
thaon to toke the lead mn the introduction of 
a New order of things 
没有 什么 比 带 头 建立 事物 的 新 税 序 更 难 掌握 ， 
更 担 风 险 ,更 高 深 油 测 的 了 。 


一 NICCOLO MACHIAVELL|, The Prince (1951) 


“But you con look up alt those license 
numbers mn time,” Droke objected ， 
“ We don ’ t hove to , Pou1 Ve merely OrranNge 0 list 


99 


aNd look for duplicotions 

“但 是 你 丰 能 及 时 查 出 全 部 那些 执 妥 号”,Drake 争辩 说 。 
“没有 必要 ,Paul。 我 们 只 要 列 一 张 表 ， 并 

把 重复 的 找 出 来 。 


一 PERRY MASON ,in The Cose of the Angry Mourner (1951) 


“ Treesort” Computer— With this new“compuierapproach 
tO nature study you con quickly identify over 260 
different trees of U S$. , Alasko, ond Caonado, 
even paims , desert trees , oNnd other exotics 
To sort ,you simply insert ihe Needle, 
NA “ 树 菲 序 ” 计 算 机 一 一 应 用 这 种 新 的 “计算 机 方法 
来 进行 奉 种 研究 ,你 能 锯 速 地 确认 
260 种 以 上 美国 .阿拉 斯 加 和 加 拿 大 的 不 则 树种 ， 
黄 至 棕 克 酝 、 沙 浇 里 的 树 , 以 及 其 它 外 来 本 种。 
要 想 排 序 ,你 尺 人 须 插 入 这 闫 人 针 冉 行 了 。 


一 Cotolog of Edmund Scientific Compony( 1964) 


在 这 一 章 里 ,我 们 将 研究 在 程序 设计 中 经 常 出 现 的 一 个 课题 :以 递增 或 递减 的 
次 序 重新 排列 项 目 。 我 们 可 以 设想 一 下 ,倘若 字典 中 的 词 不 是 以 字母 的 顺序 排列 ， 
ae 1 . 
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那么 使 用 这 样 的 字典 将 是 何等 困难 ! 同样 ,存在 于 计算 机 存储 恬 中 的 各 项 的 次 序 ， 
对 于 处 理 这 些 项 目的 算法 的 速度 及 简便 性 来 说 ,也 有 着 重要 的 影响 。 

尽管 喘 语 词典 里 把 “sorting 一 词 定 义 为 按照 种 类 或 类 型 ,分 开 或 安排 事物 的 过 
程 ,但 是 计算 机 程序 员 习 惯 于 在 更 为 特殊 的 意义 下 来 使 用 它 , 即 把 事物 排 成 递增 或 
递 降 的 次 序 。 这 个 过 程 也 许 应 称 做 ordering ,而 不 是 sorting; 但 任何 试图 把 它 称 为 
“ordering” 的 人 很 快 就 会 导致 混乱 ,因为 这 个 词 已 被 附加 了 许多 不 同 的 意义 。 例 如 ， 
考虑 下 边 的 句子 :由 于 我 们 只 有 两 台 磁 市 机 处 于 工作 状态 (working order) ,我 被 要 
求 (was ordered) 去 以 快速 订货 的 形式 (in short order) 订 购 (order) 更 多 的 磁 囊 机 ,以 
便 (in order) 以 快 若干 数量 级 (order) 的 速度 对 数据 进行 排序 (order)”。 在 数学 术语 
中 ,“order” 的 意义 太 多 了 ( 群 的 阶 (order) ,置换 的 阶 (order) ,分 支点 的 级 数 (order)， 
次 序 (order) 的 关系 ,等 等 )。 所 以 我 们 可 以 得 出 结论 ,“order” 一 词 容 易 导 至 混乱 。 

某 些 人 建议 用 “sequencing” 作 为 排序 过 程 的 适当 名 称 , 但 是 这 个 词 通常 缺乏 恰 
当 的 涵义 ,特别 是 当 出 现 相 等 的 元 素 时 , 而 且 , 它 有 时 同 其 它 术 语 冲突 。 实 际 上 ， 
“sorting” 本 身 也 是 一 个 被 滥用 了 的 词 (如 :在 对 那 一 类 (sort) 数 据 进行 排序 (sorting) 
以 后 ,我 有 几 分 (sort of) 不 快 (out of sorts) ) ,但 它 已 经 在 计算 的 用 语 中 被 确认 并 使 用 
了 。 因 此 ,我 们 将 把 “排序 ”(sorting) 一 词 用 于 “ 排 成 有 序 ” 的 严格 意义 之 下 ,而 不 去 
作 进 一 步 的 辩解 。 

排序 的 某 些 最 重要 的 应 用 是 : 

a) 解决 “一 起 性 ”的 问题 , 即 把 具有 相同 标志 的 所 有 项 目 连 在 一 起 。 假 设 我 们 
有 随机 次 序 的 10 000 个 项 目 , 其 中 许多 有 相等 的 值 ;而 且 假 设 我 们 要 重新 排列 数 
据 ,使 得 具有 相等 值 的 所 有 项 出 现在 连续 的 位 置 上 。 这 实际 上 是 该 词 传统 意义 下 的 
“sorting "问题 ;通过 在 该 词 的 新 意义 下 对 文件 排序 ,可 以 容易 地 解决 这 个 问题 ,使 得 
这 些 值 按 递增 的 次 序 vl 二 vw, 志 … 世 wio0o0o 排 好 。 在 这 个 过 程 中 可 能 达到 的 效率 ,说 
明了 为 什么 "sorting”" 原 来 的 意义 已 经 改变 。 

b) 匹配 在 两 个 或 更 多 个 文件 中 的 项 。 如 果 和 若干 个 文件 已 经 按 次 序 排 好 , 则 通 
过 顺序 地 扫描 一 趟 它们 ,就 可 能 从 中 找 出 所 有 匹配 的 项 ,而 无 须 退 回去 查 。 这 是 
Perry Mason 在 解决 一 个 谋杀 案件 时 用 到 的 原理 ( 见 本 章 开 头 的 引用 语 )。 从 开始 到 
末尾 顺序 地 遍历 一 个 信息 表 , 而 不 是 在 表 中 随机 地 来 回 跳 动 ,通常 可 以 最 快速 地 处 
理 一 个 信息 表 ,除非 这 个 表 足 够 小 ,可 以 存 人 到 高 速 随 机 存 取 的 存储 器 中 。 排 序 使 
得 有 可 能 对 大 型 文件 使 用 顺序 存 取 ,从 而 有 可 能 取代 直接 寻 址 。 

c) 通过 键 码 值 查找 信息 。 如 同 我 们 将 在 第 6 章 中 要 见 到 的 ,排序 也 有 助 于 查 
找 , 因 此 它 也 有 助 于 使 计算 机 的 输出 更 适合 人 们 的 需要 。 事 实 上 , 按 字母 顺序 排序 
的 一 份 清单 ,往往 看 上 去 十 分 可 信 ,即使 有 关 的 数字 信息 计算 得 不 正确 也 是 如 此 。 

尽管 排序 传统 上 多 用 于 商业 数据 处 理 , 但 它 实 际 上 是 程序 员 应 当 掌 握 的 运用 广 
泛 的 一 项 基本 工具 。 在 习题 2.3.2-17 中 ,我 们 已 经 讨论 了 它 在 简化 代数 公式 中 的 
用 途 。 以 下 的 习题 说 明 各 种 各 样 的 典型 应 用 。 

展示 排序 多 样 性 最 初 的 大 型 软件 系统 之 一 ,是 由 J.Erdwinn 和 D.E. Ferguson,， 
以 及 他 们 在 Computer Sciences Corporation( 计算 机 科学 公司 ) 的 助手 们 于 1960 年 开 

. 2? 。 
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发 的 LARC Scientific Compiler( 拉 克 科 学 编译 语言 ) 程 序 。 这 个 用 于 扩充 的 FOR- 
TRAN 语言 的 优化 编译 程序 ,大量 使 用 了 排序 ,使 得 各 种 编译 算法 同 源 程序 的 有 关 
部 分 都 以 适当 的 顺序 出 现 。 第 一 遍 是 词法 扫描 , 它 把 EORTRAN 源 代 码 分 成 单个 
的 记号 ,每 个 表示 一 个 标志 符 ,或 者 一 个 常数 ,或 者 一 个 操作 符 等 等 。 每 个 记号 征购 
以 若干 顺序 号 ; 当 对 名 字 和 适当 的 顺序 号 进行 排序 时 ,一 个 给 定 标志 符 的 所 有 使 用 
就 联系 在 一 起 了 。 一 个 用 户 将 用 之 来 确定 标志 符 是 否 代 表 一 个 函数 名 ,一 个 参数 或 
一 个 数组 变量 的 “定义 项 ” ,被 给 予 一 个 低 的 顺序 号 ,以 使 它们 在 具有 一 个 给 定 标 志 
符 的 诸 记 号 当中 首先 出 现 ;这 样 , 既 便于 校 验 一 个 标志 符 的 使 用 是 否 有 冲突 ,又 便于 
相对 于 EQUIVALENCE 说 明 符 来 分 配 存 储 。 以 这 种 方式 收集 在 一 起 的 每 个 标志 符 的 
信息 现在 附加 在 每 个 记号 上 ;这 样 在 高 速 存储 器 中 就 不 需要 保留 标志 符 的 “符号 表 ” 
了 。 更 新 过 的 记号 然后 按 另 一 个 序列 号 排序 , 它 基 本 上 是 把 源 程 序 恢 复 到 它 原 来 的 
顺序 ,只 是 该 序列 是 特殊 设计 的 , 它 把 算术 表达 式 变 成 为 更 方便 的 “波兰 前 缀 "形式 。 
排序 也 用 于 编译 的 稍 后 阶段 ,以 便于 进行 循环 优化 ,把 错误 信息 合并 到 清单 当中 ,等 
等 。 简 言 之 ,编译 程序 被 设计 成 ,使 得 实际 上 可 以 通过 顺序 地 处 理 存 于 辅助 磁 或 内 
的 文件 而 完成 工作 ,因为 适当 的 顺序 号 ,是 以 这 样 一 种 方式 附加 在 数据 上 的 , 即 数据 
能 被 排 成 各 种 方便 的 序列 。 

20 世纪 60 年 代 的 计算 机 厂家 估计 , 当 把 他 们 的 所 有 顾客 都 考虑 在 内 时 ,在 他 
们 的 计算 机 上 ,将 有 超过 25% 的 运行 时 间 花 在 排序 上 。 事 实 上 ,有 许多 计算 机 装 
置 , 仅 其 中 的 排序 ,就 用 去 计算 时 间 的 一 半 以 上 。 由 这 些 统计 ,可 以 得 出 结论 :(i) 排 
序 有 许多 重要 的 应 用 ;(ii) 当 不 应 当 进 行 排序 时 ,许多 人 却 进行 了 ;(ii) 低 效 的 排序 
算法 正 被 普遍 地 使 用 着 。 实 际 情形 可 能 包括 所 有 这 3 种 可 能 性 。 但 无 论 如 何 ,排序 
都 值得 作为 一 个 实际 问题 而 认真 地 加 以 研究 。 

即使 排序 毫 无 用 处 ,也 仍然 有 许多 理由 对 它 进 行 研 究 ! 业已 发 现 的 巧妙 算法 表 
明 ,排序 本 身 就 是 一 个 值得 剖析 的 极其 有 趣 的 课题 。 在 这 方面 ,还 有 很 多 有 魅力 的 
巷 而 未 决 的 问题 ,当然 也 有 不 少 已 经 解决 了 了。 

从 一 个 更 广泛 的 方面 着 眼 ,我们 也 会 发 现 ,对 于 一 般 情 况 下 如 何 着 手 解决 计算 
机 程序 设计 的 问题 ,排序 算法 即 是 一 个 有 价值 的 实例 分 析 。 在 这 一 章 我 们 将 说 明 数 
据 结 构 操 作 的 许多 重要 原理 。 我 们 将 考察 各 种 排序 技术 的 演化 ,以 期 向 读者 指出 ， 
这 些 思想 首先 是 如 何 被 发 现 的 。 通 过 外 推 这 一 实例 分 析 ,我 们 可 以 学 到 许多 好 的 策 
略 ,来 帮助 我 们 就 其 它 计算 机 问题 设计 好 的 算法 。 

排序 技术 也 为 包含 于 算法 分 析 中 的 一 般 思 想 提供 了 极 好 的 说 明 一 一 这 些 思 想 
通常 用 来 确定 算法 的 性 能 特征 ,以 便 在 不 同 的 方法 之 间 进 行 明智 的 选择 。 专 长 数学 
的 读者 ,将 在 这 一 章 中 找到 用 于 评价 计算 机 算法 的 速度 和 解决 复杂 的 递归 关系 的 ， 
许多 有 和 启发 的 技术 。 另 一 方面 ,由 于 已 对 内 容 做 了 适当 的 编排 ,使 得 那些 并 不 很 描 
长 数学 的 读者 也 能 跳 过 这 些 计算 而 不 受 影 啊 。 

在 往 下 进行 之 前 ,应 该 更 清楚 地 来 定义 我 们 的 问题 ,并 且 介 绍 一 些 术语 。 给 定 
有 竺 排序 的 N 个 项 目 
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我 们 称 这 些 项 目 为 记录 ,并 称 N 个 记录 的 整个 集合 为 一 个 文件 。 每 个 记录 R; 有 一 
个 键 码 K;, 它 支配 着 排序 的 过 程 。 在 一 个 记录 中 , 除 这 个 键 码 外 ,还 可 能 有 其 它 的 信 
息 ;这 些 额 外 信息 ,除非 必须 作为 记录 的 一 部 分 来 一 起 处 理 , 否 则 对 于 排序 过 程 没 有 
影响 。 
在 键 码 上 确定 一 个 次 序 关 系 “<”, 使 得 对 于 任意 三 个 键 码 值 c ,5,c ,下列 条 件 
成 立 : 
a<b,a=6b,b<a 三 个 可 能 性 中 恰 有 一 个 可 能 性 成 立 ( 这 是 三 分 律 )。 
ii) 如 果 ac<2, 而 且 6<c, 则 a<rc( 这 是 熟知 的 传递 律 ) 。 
性 质 i) 和 ii 表征 了 线性 次 序 的 数学 概念 ,也 称 做 全 序 。 任 何 满足 让 和 ii) 的 关系 
“< "都 可 以 按 本 章 中 即将 介绍 的 大 多 数 方法 进行 排序 ,尽管 有 些 排 序 技术 被 设计 成 
只 对 具有 通常 次 序 的 数字 或 字母 键 码 有 效 。 
排序 的 目标 ,是 确定 下 标 为 {1,2,…,NN| 的 一 个 排列 p(1)p(2)…p(N), 它 以 非 
递 降 的 次 序 来 放置 所 有 键 码 : 
KU 委 天 2) SS SQ Kon) (1) 
如 果 我 们 提出 进一步 的 要 求 , 即 具有 相同 键 码 的 记录 保留 它们 原来 的 相对 次 序 , 则 
称 这 个 排序 是 稳定 的 。 换 句 话 说 ,稳定 排序 有 下 列 附加 的 性 质 , 即 
p(i) < p(j) 每 当天 = Kj)j 且 i<j 时 (2) 
在 某 些 情况 下 我 们 可 能 要 求 在 存储 器 中 对 记录 进行 物理 上 的 重新 排列 ,使 其 键 
码 成 为 有 序 的 。 而 在 其 它 一 些 情况 下 ,可 能 仅仅 需要 一 张 辅 助 表 以 某 种 方式 确定 这 
个 排列 ,以 便 这 些 记 录 能 根据 其 键 码 的 次 序 来 加 以 存 取 。 
本 章 中 有 一 些 排序 方法 假定 了 和 值 " ce "或 " - co” ,它们 分 别 地 定义 为 大 于 或 小 于 
所 有 键 码 : 
- co < 开 ; < co 对 于 1j 夺 NN (3) 
这 些 极 值 有 时 被 用 做 人 为 的 键 码 ,也 用 做 标志 (sentinel) 指 示 器 。(3) 中 排除 了 相等 
的 情况 ,如 果 出 现 相 等 ,可 以 对 这 些 算法 进行 修改 ,使 得 它们 仍然 有 效 , 但 通常 要 损 
失 一 些 简洁 性 和 有 效 性 。 
排序 一 般 可 分 为 内 部 排序 和 外 部 排序 。 在 内 部 排序 中 ,记录 被 整个 地 保留 在 计 
算 机 的 高 速 随机 存 取 存储 器 中 ; 当 记 录 比 内 存 一 次 所 能 容纳 的 还 多 时 , 则 使 用 外 部 
排序 。 内 部 排序 在 构造 和 存 取 数据 方面 具有 更 多 的 灵活 性 ,而 外 部 排序 则 告诉 我 们 
如 何 应 对 更 为 严格 的 存 取 约束 。 
利用 一 个 较 好 的 通用 排序 算法 ,对 N 个 记录 进行 排序 所 需要 的 时 间 , 大 纹 同 
N log NN 成 比例 ;我 们 对 数据 大 约 扫 描 log 六 “ 趟 "。 如 同 在 5.3.1 小 市 将 看 到 的 ， 
如 果 所 有 记录 的 次 序 随 机 而 且 排 序 是 通过 键 码 的 两 两 比较 进行 的 , 则 这 是 极 小 的 时 
间 。 于 是 ,如果 把 记录 的 数目 加 倍 , 则 将 花 略 多 于 两 倍 的 时 间 对 它们 进行 排序 ,而 所 
有 其 它 方面 不 变 (实际 上 , 当 N 趋 于 无 穷 时 ,如 果 键 码 不 同 的 话 , 则 排序 所 需 时 间 的 
一 个 更 好 表示 是 N (log N) ,因为 键 码 的 大 小 必须 至 少 以 log N 的 速度 增长 ;但 对 
于 实际 使 用 来 说 ,NN 事实 上 绝 不 会 趋 于 无 穷 ) 。 
。 了 
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另 一 方面 ,如 果 已 知 关于 某 个 连续 的 数值 分 布 , 诸 键 码 是 随机 分 布 的 , 则 我 们 将 
看 到 ,平均 说 来 ,我 们 可 以 在 O(N) 步 内 实现 排序 。 


习题 一 一 第 一 组 


1.[M20] 由 三 分 律 和 传递 律 证 明 , 当 假定 排序 稳定 时 ,排列 p(1)p(2)…p(N) 是 惟一 确定 
的 。 
2.[21] 假定 某 文件 中 的 每 个 记录 R; 包含 两 个 键 码 ,一 个 “主键 码 ”K; 和 一 个 “次 键 码 "k ,而 
是 每 一 个 键 码 集合 中 各 定义 了 一 个 线性 次 序 < 。 则 我 们 可 以 用 通常 的 方式 在 键 码 对 (KK ,k) 之 间 
(Ki,k;) < (Ki) 如 果 K;< K; 或 如 果 K; = K; 且 k;<& 
Alice 取 这 个 文件 ,并 且 首 先 按 主 键 码 对 它 进行 排序 ,得 到 n 组 记录 , 且 对 于 每 组 记录 ,有 相同 
的 主键 码 
Ks) = = Kyo) < Kyoiry)y = = Ky) < "< Koei 
其 中 i, = N。 然 后 ,她 按 各 组 的 次 键 码 对 ” 个 组 Rp( +D,… ,Rp(;) 中 的 每 一 个 进行 排序 。 


Bill 取 同 一 个 原始 文件 ,首先 按 次 键 码 进行 排序 ,然后 对 得 到 的 文件 按 主 键 码 进行 排序 。 

Chris 取 同 一 个 原始 文件 , 按 主键 码 和 次 键 码 (K;,&;) 的 字典 序 对 它 进行 一 次 排序 操作 。 

问 每 个 人 是 否 得 到 相同 的 结果 ? 

3.[M25] 设 < 是 K1,…,Kn 上 的 一 个 关系 , 它 满足 三 分 律 ,但 不 满足 传递 律 。 证 明 , 即 使 没 
有 传递 律 ,也 有 可 能 以 一 种 稳定 的 方式 对 记录 进行 排序 , 且 满足 条 件 (1) 和 (2); 事 实 上 ,至 少 有 3 
个 满足 这 些 条 件 的 排列 方式 ! 

4.121] 实际 上 词典 中 并 未 使 用 严格 的 字典 序 ,因为 大 小 写字 母 都 必须 参与 排列 。 它 们 要 有 
以 下 这 样 一 个 顺序 ， 
a<A<aa<AA< AAA < Aachen <aah<: < 772z < ZLL 
说 明 如 何 来 实现 字典 序 。 
> 5. [M28] 试 对 所 有 的 非 负 整数 设计 一 个 二 进 制 编码 ,使 得 如 果 把 n 编码 为 捉 p(n), 则 我 们 

有 mm 过 当 旦 仪 当 o(m ) 按 字典 序 小 于 p(n)。o 而 且 ,对 于 任何 Nm 关 n,o(m) 不 应 是 p(n) 的 一 个 
前 级。 如 果 可 能 ,对 于 所 有 大 的 n ,p(n) 的 长 度 应 当 至 多 为 lg n+ O(log log n)( 如 果 我 们 要 对 文 
字 和 数字 混合 的 文本 进行 排序 的 话 ,或 者 如 果 我 们 要 把 任意 大 的 字母 表 映 射 成 二 进 制 串 的 话 , 则 
这 样 一 个 编码 是 有 用 的 )。 

6.[15] B.C.Dull 先生 (一 个 MIX 程 序 员 ) 要 想 知 道 存 在 于 单元 A 中 的 数 是 否 大 于 、 小 于 或 等 
于 存在 于 单元 B 中 的 数 , 所 以 ,他 写 语句 “LDA A;SUB B” 并 测试 寄存 器 A 是正 ,是 负 或 是 0。 他 犯 了 
什么 严重 错误 ?他 应 该 如 何 做 ? 

7.[17]. 按 下 列 说 明 写 出 多 精度 键 码 比较 的 MIX 子 程序 : 

调用 序列 ;JMP COMPARE 

和 人口 条 件 :rI1 =n; 对 于 1 才 & 才 nn ,CONTENTS(A+k)= a,,CONTENTS(B+k&)=b,; 

假定 之 1。 
出 口 条 件 :CI= GREATER， 如 果 (a， ,ai)>>(D，…，D1) 
CI= EQUAL， 如 果 (a,,…,al) = (5, ,601); 


,= = Kp: ) 
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CI= LESS， 如 果 (a,,… a1) 二 (bi, ,601); 
rX 和 rll 可 能 要 受 影响 。 
这 里 ,关系 (a, ,… ,al) 达 (5b,，…,6b1) 表 示 从 左 到 右 的 字典 序 ; 即 ,对 于 ”之 &>j) ,有 一 个 下 标 j ,使 
得 a = 5, 而 a; < bjo 
p>8.130] 单元 A 和 B 分 别 存放 两 个 数 a 和 5。 证 明 , 有 可 能 写 出 一 个 MIX 程序 , 它 计算 并 保存 
min(a ,5) 于 单元 C 中 ,而 不 使 用 任何 转移 操作 符 。( 警 告 : 由 于 你 不 可 能 测试 是 否 出 现 算术 溢出 ， 
所 以 确保 无 论 是 a 值 还 是 5 值 都 不 会 出 现 溢出 ,是 明智 的 。) 
9.[M27] 在 N 个 独立 地 一 致 分 布 于 0 和 1 之 间 的 随机 变量 排 为 非 递减 顺序 之 后 ,这 些 变量 
中 第 ~ 个 最 小 者 小 于 等 于 zx 的 概率 是 多 少 ? 


习题 一 一 第 二 组 


下 列 每 一 个 习题 指出 了 ,在 以 前 计算 机 还 只 有 较 少 随机 存 取 内 存 的 时 候 , 计 算 机 程序 员 所 要 
解决 的 问题 。 假 设 仅 有 几 千 字 的 内 存 可 供 利 用 ,通过 大 约 半 打 的 磁带 机 作为 补充 (对 于 排序 来 说 
这 些 磁带 机 足够 了 ) , 试 提出 解决 这 个 问题 的 “好 ”方法 。 在 这 样 的 限制 之 下 工作 得 很 好 的 算法 ,证 
明 在 现代 机 器 上 也 是 有 效 的 。 

10.[15] 给 你 一 条 含有 100 万 个 字 的 磁带 。 你 如 何 确定 该 磁带 中 有 多 少 字 不 同 ? 

11.[18] 你 是 美国 国内 税收 服务 人 员 ,你 收 到 了 来 自 各 单位 的 数 百 万 “信息 "表格 ,报告 他 们 
已 向 人 们 支付 了 多 少 钱 ; 同 时 ,又 从 人 们 那里 收 到 了 数 百 万 “税收 ?表格 ,报告 他 们 已 经 得 到 了 多 少 
收入 。 你 如 何 发 现 没 有 报告 他 们 所 有 收入 的 人 ? 

12.[M25]( 转 置 一 个 矩阵 ) 给 你 一 条 含有 100 万 个 字 的 磁带 ,这 些 字 表 示 按 行 顺 序 存储 的 
1000 x 1000 和 矩阵 的 元 素 ;ai,1 al …al1000 42,1…Qa2,1000…Q1000,1000。 你 如 何 建立 一 条 磁带 ,其 中 
元 素 是 按 列 的 次 序 Ql 42,1 41000,1 ai …aioo0.2…ai000.1000 存 储 的 ( 试 试看 ,最 多 只 对 数据 扫描 
10 趟 )? 

13.[M26] 你 如 何 把 NN 个 字 的 一 个 大 型 文件 “ 洗 "成 随机 排列 ? 

14.[20] 你 正在 用 两 个 计算 机 系统 进行 工作 ,它们 对 字母 数字 的 排列 方式 有 不 同 的 约定 。 你 
如 何 使 一 台 计 算 机 按 另 一 台 计 算 机 使 用 的 次 序 对 字母 数字 文件 进行 排序 ? 

15.[18] 给 你 一 份 出 生 在 美国 的 附 有 其 出 生 州 名 的 人 员 和 名单, 名 单 上 的 人 很 多 ,你 如 何 计算 
出 每 个 州 出 生 的 人 数 ( 假 设 这 个 名 单 中 每 个 人 只 出 现 一 次 )? 

16.[20] 为 了 易于 改动 大 型 FORTRAN 程序 ,你 需要 设计 一 个 “交叉 引用 "程序 ;这 样 一 个 程 
序 以 FORTRAN 程序 作为 输入 ,并 连同 一 个 索引 一 起 把 它们 打印 出 来 ,索引 说 明 程序 中 每 个 标志 
符 ( 即 每 个 名 字 ) 的 各 次 使 用 。 你 如 何 来 设计 这 个 程序 ? 

了 P17.[33]( 图 书馆 卡片 排序 ) 在 实现 计算 机 化 的 数据 库 之 前 ,每 个 图 书馆 都 有 一 个 卡片 目录 ， 
以 便 使 用 者 可 以 找到 他 们 所 要 的 书 。 但 随 着 图 书馆 藏书 的 增加 ,将 目录 卡片 排序 以 便于 人 们 使 
用 这 项 工作 变 得 十 分 复杂 。 下 面 的 “ 按 字母 顺序 的 ”清单 指出 了 American Library Association Rules 
for Filing Catalog Cards (Chicago,1942) 中 建议 的 许多 规程 : 


卡片 的 正文 注 释 
R. Accademia nazionale dei Lincei, Rome Ignore foreign royalty(except British) 
1812 ;ein historischer Roman. Achtzehnhundert zwolf 


60 : 





Bibliothéque d histoire révolutionnaire. 

Bibliotheque des curiosites 

Brown, Mrs.].Crosby 

Brown, John 

Brown,John ,mathematician 

Brown ,John ,of Boston 

Brown ,John ,171S 一 1766 

BROWN ,JOHN ,1715—1766 

Brown ,John ,d.1811 

Brown, Dr. John ,1810 一 1882 

Brown-Williams, Reginald Makepeace 

Brown America. 

Brown & Dallison’s Nevada directory. 

Brownjohn ,Alan 

Den’ ,Vladimir Eduardovich ,1867- 

The den. 

Den lieben sissen Mideln. 

Dix ,Morgan ,1827 一 1908 

1812 ouverture. 

Le XIXe siecle fran cais. 

The 1847 issue of U.S. stamps. 

1812 overture. 

I am a mathematician. 

IBM journal of research and development. 

ha-I ha-ehad. 

la;a love story. 

International Business Machines Corporation 

al-Khuwarizmi, Muhammad ibn Misa, 
f1. 813—846 

Labour. A magazine for all workers. 

Labor research association 


Labour, see Labor 


Treat apostrophe as space in French 
Ignore accents on letters 
Ignore designation of rank 
Names with dates follow those without 
…and the latter are subarranged 

by descriptive words 
Arrange identical names by birthdate 
Works “about” follow works “by” 
Sometimes birthdate must be estimated 
Ignore designation of rank 
Treat hyphen as space 
Book titles follow compound names 


& in English becomes “and” 


Ignore apostrophe in names 
Ignore an initial article 
“provided it s in nominative case 
Names precede words 

Dix-huit cent douze 
Dix-neuvieme 

Eighteen forty-seven 

Eighteen twelve 

(a book by Norbert Wiener) 
Initials are like one-letter words 
Ignore initial article 


Ignore punctuation in titles 


Ignore initial“al- in Arabic names 


Respell it“Labor 


Cross-reference card 
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MecCall s cookbook 

McCarthy ,John ,1927- 

Machine-independent computer 
programming. 

MacMahon ,Maj. Percy Alexander, 
1854 一 1929 

Mrs. Dalloway. 

Mistress of mistresses. 

Royal society of London 

St. Petersburger Zeitung. 

Saint-Saéns, Camille, 1835—1921 

Ste- Marie, Gaston P 

Seminumerical algorithms. 

Uncle Tom’ s cabin. 

U.S. bureau of the census. 

Vandermonde, Alexandre Théophile, 
17343 一 1796 

Van Valkenburg ,Mac Elwyn, 1921- 

Von Neumann ,John ,1903 一 1937 

The whole art of legerdemain. 

Who's afraid of Virginia Woolf? 


Wijngaarden ,Adriaan Van,1910- 


Ignore apostrophe in English 


Mc= Mac 


Treat hyphen as space 


Ignore designation of rank 


“Mrs.”=“Mistress” 


Don’ t ignore British royalty 

“St.” = “Saint” ,even in German 
Treat hyphen as space 

Sainte 

(a book by Donald Ervin Knuth) 
(a book by Harriet Beecher Stowe) 


“U.S.” = “United States” 


Ignore space after prefix in surnames 


Ignore initial article 


Ignore apostrophe in English 


Surname begins with upper case letter 


这 些 规则 大 多 数 都 有 若干 例外 ,而且 还 有 许多 其 它 规则 这 里 未 予 说 明 。 
如 果 你 的 工作 就 是 用 计算 机 对 大 量 图 书馆 的 目录 卡片 进行 排序 ,并 最 终 维护 这 样 一 个 庞大 
的 卡片 文件 ,而 且 你 也 没有 机 会 去 改变 卡片 归档 的 这 些 长 期 有 效 的 规则 ,那么 你 应 怎样 安排 数 
据 ,以 便于 进行 排序 和 合并 操作 ? 
18.[LM25 ] (下 . 工 .Parker) 欧 拉 曾经 猜测 LNova Acta Acad. Sci. Petropolitanae 13(1795) ,45 一 63， 
$3; 写 于 1778 年 ] ,方程 
Us + vt wt rt+ y= zs 
没有 正 整 数 的 解 u,v,w,x,y,z。 同 时 ,他 猜测 ,对 于 所 有 的 二 之 3 
3 十 十 1 二 
没有 正 整数 的 解 。 但 是 这 个 猜测 已 被 计算 机 发 现 的 恒等式 27 + 84° +110 ”+133”=144” 所 否定 ， 
参见 L.J. Lander, T. R. Parkin 和 和 J. L. Selfridge, Math. Comp. 21(1967) ,446 一 4$9。 后 来 , Noam 
Elkies 又 发 现 了 n=4 时 无 穷 多 的 反例 [Math. Comp. 51(1988),825 一 835]。 你 能 否 想 出 一 个 办 
法 ,其 中 的 排序 将 有 助 于 找到 当 n=6 时 欧 拉 猜测 的 反例 ? 
> 19.[24] 给 定 一 个 包含 大 量 不 同 的 30 位 二 进 制 字 x1,… ,zn 的 文件 , 找 出 其 中 所 有 补 码 对 
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izi ,Xj| 的 好 方法 是 什么 (两 个 字 称 为 互补 的 ,如 果 其 中 一 个 是 0 的 地 方 男 一 个 是 1, 反之 亦 然 ; 于 
是 , 当 它 们 被 处 理 作 二 进 制 数 时 ,互补 的 充 要 条 件 是 其 和 为 (11…1),)? 

20.[25] 给 定 一 个 含有 1000 个 30 位 二 进 制 字 zj, …，,ziooo 的 文件 ,你 如 何 编制 一 份 所 有 对 
偶 (zi zi) 的 表 ,使 得 除 最 多 两 个 二 进 数 位 外 ,zi = zx;? 

21.[22] 你 如 何 去 寻 找 5 个 字母 的 变 位 词 (anagram ) ,如 :CARET,CRARTE ,CARTER ,CRATE , REACT ， 
RECTRA ,TRACE ; CRUFL ,LUCRE ,ULCER; DOWRY , ROWDY ,WORDY[ 除 值 得 注意 的 集合 

APERS ,ASPER ,PRARES , PARSE ,PRRRS ,PRRSE ， 

PRESR ,RARPES ,RERPS ,SPAER ,SPARE ,SPERR 
外 (我 们 也 把 法 文字 APRES 加 进去 ) ,人们 可 能 希望 知道 是 否 有 包括 10 个 或 更 多 的 5 字母 变 位 词 
的 任何 集合 ]? 

22.[M28 j 给 定 大 量 的 有 向 图 说 明 , 为 了 按 同 构 进行 分 组 ,可 用 什么 方法 (如 果 在 有 向 图 的 顶 
反之 间 有 一 一 对 应 ,在 它们 的 有 向 边 之 间 也 有 一 一 对 应 ,并 保持 顶点 和 有 向 边 之 间 的 邻接 关系 ， 
0 

3.[30」 在 有 4096 个 人 的 某 人 群 中 ,每 个 人 有 大 约 100 个 相识 者 。 一 个 文件 已 经 列 出 所 有 
得 识 的 对 偶 ( 关 系 是 对 次 的 ， 即 ; 如 果 zz 同 y 相识, 则 y 同 zx 相识 。 因 此 ,此 文件 大 约 含 有 200 000 
项 )。 你 怎样 设计 一 个 算法 ,对 于 给 定 的 &, 列 出 这 群 人 当中 所 有 个 人 的 团体 (一 个 团体 是 互相 
认识 的 一 组 人 ,团体 中 每 个 人 都 与 其 他 人 相识 )? 假定 不 存在 人 数 是 25 的 团体 ,因此 团体 的 总 数 
不 可 能 很 多 。 

24.[30] 具有 不 同名 字 的 300 万 人 紧 挨 着 排 在 一 起 ,从 纽约 排 到 加 利 福 尼 亚 。 给 每 个 参加 者 
发 一 张 纸 条 ,在 这 张 纸 条 上 写 下 他 自己 的 名 字 ,以 及 紧 挨 着 他 西 侧 的 那个 人 的 名 字 。 在 最 西端 的 
那个 人 不 知道 怎么 做 ,就 把 纸 条 扔 了 ; 剩 下 的 2 999 999 张 纸 条 放 到 一 个 大 篮子 中 ,并 送 到 首都 华 
盛 顿 的 国家 档案 局 。 在 那里 篮子 中 的 内 容 已 完全 乱 了 ,之 后 转移 到 磁带 上 。 

这 时 ,一 个 信息 学 家 发 现 , 在 磁带 上 有 足够 的 信息 能 重新 构造 原来 顺序 下 人 们 的 名 单 。 一 个 
计算 机 学 家 也 发 现 ,通过 对 整个 数据 带 进 行 不 到 1000 次 的 扫描 , 即 可 重新 构造 此 序列 ,而 且 此 方 
法 只 对 磁带 文件 做 顺序 存 取 ,只 使 用 少量 的 随机 存 取 存储 器 。 要 如 何 做 才 可 能 呢 ? 

[换言之 ,对 于 1 二 i< 六 ,给 定 随 机 次 序 下 的 对 偶 (zi,zi+t), 其 中 ,z; 各 不 相同 , 若 把 所 有 操 
作 限 制 为 适合 使 用 磁带 的 串 行 技术 ,如何 得 到 序列 zx1x，… xn? 这 是 当 没 有 容易 的 方法 来 确定 两 
个 给 定 的 键 码 中 哪 一 个 在 前 时 的 排序 问题 ;我 们 已 经 把 这 个 问题 作为 习题 2,2.3-25 的 一 部 分 。] 

25.[M21 ]( 离 散 对 数 ) 你 知道 ,p 是 一 个 (相当 大 的 ) 素 数 ,a 是 一 个 模 p 的 原 根 。 因 此 ,对 于 
1 委 2< pb 的 所 有 65, 有 惟一 的 n 使 得 a” mod p=5,1 夺 nn < p( 这 个 nn 称 做 关于 a ,6b 的 模 p 的 指 
数 )。 给 定 5, 试 说 明 ,怎样 在 少 于 Q(n) 步 内 找 出 nn[ 提 示 : 设 m=[Vp 1, 试 对 0 过 n1,ns;<<m 求解 
a™ "1 二 ba "2(modulo 力 )]? 
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有 限 集合 的 一 个 排列 就 是 把 它 的 元 素 排 成 一 行 的 一 种 排 法 。 在 研究 排序 算法 
中 ,排列 具有 特殊 的 重要 性 ,因为 它们 表示 了 未 排序 的 输入 数据 。 为 了 研究 不 同 排 
序 方法 的 有 效 性 ,我 们 要 能 计算 这 样 的 排列 数目 , 即 它们 引起 一 个 排序 过 程 的 某 一 
步 执行 一 定 的 次 数 。 
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当然 ,在 第 1、 第 2 和 第 3 章 中 我 们 已 经 数 次 涉及 到 排列 。 例 如 ,在 1.2.5 小 市 
中 ,讨论 了 构造 n 个 对 象 的 n! 个 排列 的 两 个 基本 理论 方法 ;在 1.3.3 小节, 分 析 了 
涉及 排列 的 循环 结构 和 乘法 性 质 的 某 些 算法 ;在 3.3.2 小 节 , 研 究 了 它们 的 -上 运 
行 " 和 “下 运行 "。 这 一 节 的 目的 ,是 研究 排列 的 其 它 一 些 性 质 , 并 探讨 允许 出 现 相 等 
元 素 的 一 般 情 况 。 在 进行 这 一 研究 的 过 程 中 ,我们 将 大 量 地 学 习 组 合 数学 。 

排列 的 性 质 就 其 本 性 来 说 是 非常 有 趣 的 ,因而 ,不 把 其 内 容 分 散在 整个 一 章 中 ， 
而 在 本 书 中 集中 系统 地 研究 较为 合适 。 对 于 不 专长 数学 的 读者 ,以 及 急于 研究 排序 
技术 的 读者 ,建议 他 们 直接 跳 到 5.2 节 ,因为 本 节 实 际 上 同 排序 的 直接 联系 较 少 。 


*5.1.1 反 序 


设 co ,a,…，,a, 是 集合 11,2,…,n| 的 一 个 排列 ,如 果 i<j, 且 a;>aj, 则 对 侦 
(ai,a;) 称 为 排列 的 一 个 反 序 (或 称 反 演 ); 例 如 ,排列 3142 有 3 个 反 序 :(3,1),(3， 
2) 和 (4,2)。 每 个 反 序 是 “违反 排序 的 ”一 对 元 素 ,所 以 没有 反 序 的 惟一 的 排列 是 已 
排 好 序 的 排列 1 2…n。 同 排序 的 这 种 联系 ,是 我 们 对 反 序 如 此 感 兴趣 的 主要 原因 ， 
尽管 我 们 已 经 使 用 过 这 个 概念 来 分 析 动 态 存 储 分 配 的 算法 (见习 题 2.2.2-9)。 

反 序 的 概念 是 G. Cramer 于 1750 年 在 研究 他 的 解 线性 方程 组 的 著名 规则 时 | 
进 的 [Intr. a 1’Analyse des Lignes Courbes algébriques (Geneva:1750),657~659; 参 
见 Thomas Muir,Theory of Determinants 1(1906) ,11 一 14]。 实 际 上 ,Cramer 以 下 列 
方式 定义 了 n Xn 阶 和 矩阵 的 行列 式 : 

X11 X12 YY Xn 
。 : | 可 DS (- 1) 2 ri x2a Tna 

Znl Xn2 Xn 

对 和 1,2,… ,nj 的 所 有 排列 cy a，… a 求 和 ,其 中 ,inv(al1 a。… ay) 是 排列 中 的 反 

序 个 数 。 

令 b; 为 位 于 j 左边 但 大 于 j 的 元 素 个 数 , 就 得 到 排列 a1 a，… a 的 反 序 表 b1 65， 
… b,。 换 言 之 ,6b; 是 第 二 个 分 量 为 ; 的 反 序 的 个 数 。 例 如 ,排列 

S91826473 (1) 


det 





有 有 反 序 表 
236402210 (2) 
因为 5 和 9 在 1 的 左边 ;5,9,8 在 2 的 左边 ;等 等 。 这 个 排列 全 部 共有 20 个 反 序 。 
由 定义 , 数 5b; 总 满足 
0 过 on--1,0<h,n-2,.…,0<6b,11,6b,=0 (3) 
关于 反 序 ,也许 最 重要 的 事实 是 简单 的 发 现 , 即 一 张 反 序 表 惟一 地 确定 相应 的 
排列 。 我 们 可 以 通过 逐次 地 确定 元 素 n,n 一 1,…,1( 按 这 个 次 序 ) 的 相对 位 置 , 从 满 
足 (3) 的 任何 反 序 表 60， 5,… 5, 返回 到 产生 它 的 惟一 的 排列 。 例 如 ,我 们 可 以 构造 
对 应 于 (2) 的 排列 如 下 : 写 下 数字 9, 则 因 28 =1, 所 以 8 跟着 9。 因 07=2, 把 7 放 在 
。 10 e 
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8 和 9 之 后 。 因 =2,6 跟 在 已 经 写 下 的 头 2 个 数 之 后 ,所 以 到 此 有 
9867 
继续 把 5 置 于 左边 , 因 6;=0; 置 4 在 4 个 数 之 后 ; 置 3 在 6 个 数 之 后 ( 即 在 最 石 边 ) 
我 们 就 有 
5986473 

类 似 地 插入 2 和 1 就 得 到 (1)。 

这 个 对 应 是 重要 的 ,因为 我 们 经 常 能 把 借助 于 排列 叙述 的 问题 ,翻译 成 借助 于 
反 序 表 叙 述 的 一 个 等 价 问题 ,而 后 一 问题 可 能 比较 易于 解决 。 例 如 ,考虑 最 简单 的 
问题 : 11,2,…,n| 可 能 有 多 少 排列 ? 回答 一 定 是 可 能 的 反 序 表 个 数 , 而 这 是 容易 枚 
举 的 。 因 为 对 于 5 有 nn 种 选择 ,对 6; 独立 地 有 nn 一 1 种 选择 ,…… ,对 5b, 有 一 种 选 
择 ,所 以 全 部 共有 n(n 一 1)…1=n1! 种 选择 。 由 于 诸 8 是 完全 相互 独立 的 ,而 诸 a 
必须 是 彼此 不 同 的 ,所 以 , 反 序 容易 计算 。 

在 1.2.10 小节, 我 们 分 析 了 当 从 右 到 左 读 一 个 排列 时 ,该 排列 的 局 部 极 大 值 个 
数 的 问题 ;换言之 ,我 们 要 计算 有 多 少 个 元 素 大 于 它们 的 所 有 后 继 ( 例 如 ,(1) 中 从 右 
到 左 的 极 大 值 是 3,7,8 和 9)。 这 个 数 就 是 使 5; 有 它 的 极 大 值 ( 即 n 一 j) 的 j 的 个 
数 。 因 为 5, 将 以 1/n 的 概率 等 于 nn 一 1, 而 b; 将 (独立 地 ) 以 1(n 一 1) 的 概率 等 于 





n ~ 2, 等 等 ,显然 ,由 反 序 的 考虑 ,从 右 到 左 的 极 大 值 的 平均 个 数 是 
1 _ 
-+ + +1=H, 


类 似 地 ,也 容易 导出 对 应 的 生成 函数 。 
如 果 我 们 交换 一 个 排列 的 两 个 相 邻 元 素 , 则 容易 看 出 , 反 序 的 总 数 将 增 1 或 减 
1。 图 1 示 出 了 {1,2,3,4| 的 24 个 排列 ,及 其 因 互 换 相 邻 元 素 而 各 蜡 的 排列 的 连 线 ; 
沿 任何 一 条 线 往 下 使 反 序 的 数目 增 1。 因 此 ,一 个 排列 r 的 反 序 数 是 图 1 中 从 123 
4 到 x 的 向 下 通路 的 长 度 ; 所 有 这 样 的 通路 必须 有 相同 的 长 度 。 
顺便 指出 ,图 1 的 这 个 图 形 可 以 看 做 三 维 的 立体 “ 截 八 面体 ", 它 有 8 个 六 边 形 
的 面 和 6 个 正方 形 的 面 。 这 是 阿 基 米 德 (Archimedes) 讨 论 过 的 均匀 多 面体 之 一 ( 见 
习题 10)。 
读者 应 不 至 于 把 一 个 排列 的 反 序 同一 个 排列 的 送 相 混淆 。 回 想 一 下 我 们 可 以 
以 两 行 的 形式 写 一 个 排列 
1 2 3 本 
Ql 2 3 . Un 


这 个 排列 的 道 a14a2a3…a$, 是 通过 交换 这 两 行 ,而 后 对 各 列 进行 排序 ,使 得 新 的 项 
上 那 行 按 递增 次 序 排列 所 得 到 的 排列 


QQ1 a ad3 “** Qn 1 2 3 … 7 
= , (5) 
1 2 3 机 nn Ul 4 2 C 3 机 CD) 


ss 11 。 


1234 


3214 


32+4! 





+432] 


图 1 截 八 面体 , 它 说 明 当 交换 排列 的 相 邻 元 素 时 反 序 的 变化 


例如 ,由 于 
5 9 1826473| 2345678 9 
1 23456789 (359716 842 





所 以 ,591826473 的 逆 是 359716842。 定 义 逆 的 男 一 种 方法 是 说 a;=k 当 
且 仅 当 a = j。 

排列 的 逆 首 先是 由 H. A. RothelSammilung combinatorisch-analytischer Abhand- 
Jungen, C.F.Hindenburg 编 ,2 (Leipzig:1800) ,263 一 305] 定 义 的 。 他 注意 了 逆 和 反 
序 之 间 一 个 有 趣 的 关系 :一 个 排列 的 邀 聆 与 基 列 本 身 有 同 桦 多 的 反 序 。Rothe 对 这 
个 问题 的 证 明 不 是 最 简单 的 ,但 它 是 有 教 益 而 且 还 是 相当 漂亮 的 。 我 们 构造 一 个 
n Xn 的 棋盘 ,并 且 每 当 a;=j 时 就 在 i 行 ) 列 处 点 一 个 圆 点 。 然 后 ,在 那些 下 边 ( 在 
同一 列 ) 和 右边 (在 同一 行 ) 同 时 都 有 圆 点 的 所 有 正方 形 中 打上 x。 例如 ,对 于 591 


826473 的 图 为 
|x|x|e。| | | 
和 
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由 于 容易 看 出 ,b; 是 7 列 中 x 的 个 数 ,所 以 x 的 个 数 就 是 反 序 的 个 数 。 现 在 如 
果 我 们 把 这 个 图 转 置 一 下 一 一 即 交 换行 与 列 一 一 就 得 到 对 应 原 排列 的 逆 的 图 ; 因 
此 ,在 两 种 情况 下 , x 的 个 数 ( 反 序 的 个 数 ) 是 相同 的 。Rothe 利用 这 一 事实 证 明 , 当 
对 矩阵 进行 转 置 时 ,和 矩阵 的 行列 式 不 变 。 
若干 排序 算法 的 分 析 涉 及 如 下 知识 :有 和 多少 种 n 个 元 素 的 排列 恰 有 & 个 反 序 。 
让 我 们 用 1,(k) 表 示 此 数 ; 表 1 列 出 了 这 个 函数 开头 的 一 些 值 。 
表 1 具有 个 反 序 的 排列 





1,(0) TC1) 2) 1,(3) 1,(C4) 1,(5) 1,(6) 1.(7) 1,(8) 1,(9) 1,(10) 1,(11) 














通过 考虑 反 序 表 61 6，… 6b; ,显然 有 1;,(0)=1,1,(1)=n 一 1, 而 且 有 对 称 性 
质 


pn 人 (一 = 1,(k) (6) 


此 外 ,由 于 每 一 个 可 独立 于 其 它 诸 上 来 选择 , 故 不 难看 出 ,生成 函数 
G(z)= 了 (0)+T(i)z+ 了 Ti(2)z +: (7) 


满足 G(z)=(1+z+…+x 1)G,-1(z); 因 此 , 它 具 有 由 O. Rodriguezl]. de 
Math. 4 (1839) ,236 一 240] 所 注意 到 的 比较 简单 的 形式 


(1+z+……+znrl)eLI+z)() = (1 — 2)(1— 2)(1 -2z)/(1 —- z)” (8) 


由 这 个 生成 函数 ,我 们 可 以 容易 地 推广 表 1, 而 且 可 以 验证 ,该 表 中 锯齿 形 线 下 边 的 
数 满足 (这 一 关系 对 锯齿 形 的 上 边 不 成 立 ) 


I,(k)= TCR 一 1L)+TCR)， 对 于 <n (9) 
更 复杂 的 论证 表明 (见习 题 14) ,事实 上 ,我 们 有 公式 
1,(2) = " 一 1]， 7 之 2 


。 了 3 。 
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1,.(3) = ( ， ) 一 ()， ) 之 3 
ro-( (7 ) n 之 4 
2 十 3 7 十 2 


1 (5) = | 】 - | ) +1，n 实 5 


一 般 地 说 ,1,(k) 的 公式 包含 有 大 约 1.6V& 项 : 


7 十 有 一 2 2 十 &A 一 3 2 十 有 -6 n++k-8 


RET 


(| 


k—u; Rk—-u;— 
其 中 ,wj =(3 广 -71/2 就 是 所 谓 的 “五 边 形 数 ”。 
如 果 把 G, (xz) 除 以 n1, 则 我 们 就 得 到 了 在 ”个 元 素 的 随机 排列 中 , 反 序 个 数 的 
概率 分 布 的 生成 函数 ,这 是 乘积 
g,(z) = hi(z)hs(z)h,(z) (11) 


其 中 ,hi(z)=(1+z+… 十 x 1)/&, 是 小 于 的 一 个 随机 非 负 整 数 的 一 致 分 布 的 
生成 函数 。 由 此 得 出 


nh (10) 


mean(g,) =mean(hi) + mean(h;) 十 … + mean(h,) = 
1 nn-l n(n-1) 
0 + 本 tt (12) 


var(g,) =var(hi) + var(h2) + *** + var(h,) = 


nl _ n(2n+5)(n-1) 
72 


5 (13) 


0 + 二 十 "十 


所 以 反 序 的 平均 数 是 相当 大 的 , 约 为 十 n?; 标 准 差 也 相当 大 ,大 约 是 二 4?。 


关于 反 序 的 分 布 的 一 个 重大 发 现 是 由 P. A. MacMahon 做 出 的 [Amer,J. Math. 
。14 ， 
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35 (1913) ,281 一 322]。 让 我 们 把 排列 cy a。… av 的 指数 定义 为 使 得 a; > aj41,1 
< ji<7 的 所 有 下 标 ) 之 和 。 例 如 ,5 9 1 8 26473 的 指数 是 2+4+6+8=20。 凑 
巧 ,在 这 种 情况 下 ,指数 和 反 序 个 数 相 同 。 如 果 列 出 11,2,3,4| 的 24 个 排列 , 即 


排 ” 列 指数 反 序 排 列 指数 反 序 
1 2 34 0 0 3|1 2 4 1 2 
1 2 4|3 3 1 3|1 412 4 3 
1 3|2 4 2 1 3|2|1 4 3 3 
13412 3 2 3|2 4|1 4 4 
1 4|2 3 2 2 3 4|1 2 2 4 
1 4|3|2 5 3 3 4|2|1 5 5 
2|1 3 4 1 1 4|1 23 1 3 
2|1 4|3 4 2 4|1 312 4 4 
2 3|1 4 2 2 4|211 3 3 4 
2 3 411 3 3 4|2 3|1 4 5 
2 4|1 3 2 3 4|3|1 2 3 5 
2 4|3|1 5 4 4|3|2 1 6 6 


则 我 们 看 到 ,有 给 定 指数 4 的 天 列 的 个 数 ,等 同 于 有 % 个 友 序 的 天 列 的 个 数 。 

乍 一 看 ,这 个 事实 几乎 是 显然 的 ,但 是 进一步 仔细 研究 ,就 觉得 非常 不 可 思议 。 
MacMahon 给 出 了 巧妙 的 间接 证 明 ,如 下 : 设 ind(al cy … ay) 是 排列 al ay … an 
的 指数 ,并 令 对 11,2,… ,nj 的 所 有 排列 取 和 的 

H, (>) — > id e102e,) (14) 


是 对 应 的 生成 函数 ;(14) 中 的 求 和 是 对 于 {1,2,…,n| 中 的 所 有 排列 进行 的 。 我 们 
希望 证 明 瓦 ,(z)= G,(z)。 为 此 ,我 们 将 定义 以 非 负 整数 的 任意 n 元 组 (gq1, 9g;， 
… ,qx ) 为 一 方 ,和 和 以 n 元 组 的 有 序 信 


((al Q2 “"° Qan), (pi Pp2 “? pa ) ) 

为 男 一 方 的 一 一 对 应 ,其 中 ay a。… a; 是 下 标 |1,2,… ,nj 的 一 个 排列 , 且 pi 
py 宇 … 宇 p, 宇 0。 这 个 对 应 将 满足 条 件 

Q1 十 Q2 十 ”十 Gn 一 ind(a1,a2,°"", an) 十 (pi1 十 p2 十 … 二 力 ，) (15) 
对 非 负 整数 的 所 有 2” 元 组 (gq1,9，，,… ,9;) 求 和 的 生成 消 数 > zt tg 为 Q, (2z) 
= 1/(1 一 z)", 而 对 于 满足 pl 宇 p; 宇 … 之 pp, 宇 0 的 整数 的 所 有 元 组 (pi,ps,*…， 
p，) 求 和 的 生成 函数 > zx?1122+…+b, ,如 习题 15 所 示 ,为 

P,(z) = 1/(1 — z)(1 — zx)…(1 — z") (16) 
依据 (15) ,我 们 正 要 建立 的 一 一 对 应 关系 将 证 明 Q, (z)= HH,(z)P,(z), 即 
.1 ， 
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H,(z) = Q,(z)/P,(z) (17) 

但 由 (8),Q,(z)/P,(z) 为 G,(z)。 
我 们 通过 一 个 简单 的 排序 过 程 定义 所 希望 的 对 应 关系 :以 一 种 稳定 的 方式 ,可 
以 把 任何 n 元 组 (91,9;,… ,gq ) 重 新 安排 成 非 递增 的 次 序 g。 之 q, 之 … 之 qs ,其 中 


ai ay … an 是 一 个 排列 ,根据 这 个 排列 , 若 g。= 9。.,, 则 意味 着 < w+i。 我 们 置 
(pi1,P2," ;pn) 二 (qa ,49a ga) 然后 ,对 于 1 委 )<7 ,上 且 对 于 每 一 个 了 ,有 a; > 


aj;+1; 将 pi,P; 中 的 每 一 个 减 1。 这 时 我 们 仍然 有 pi1 宇 py 宇 … 宇 p; ,因为 每 当 
a> avi 时 ,都 严格 地 大 于 ,1。 得 到 的 对 偶 ((415a2,… a1); (p15 pa,… ;pp,)) 
满足 (15) ,因为 pb 的 总 的 减少 等 于 ind(al ay … a,)o 例如 ,如 果 n=9, 昌 (gi,…， 
q9) = (3,1,4,1,5,9,2,6,5), 则 我 们 可 求 得 al…ao=685931724,(p1,…,p9) 
=(5,2,2,2,2,2,1,1,1)。 

反之 , 当 给 出 cl ay … ai 和 (pi1,p2，,"…,p,) 时 ,我 们 能 很 容易 地 回 到 (gi, 49;， 
… ,gq, ) 去 (参见 习题 17)。 所 以 ,所 希望 的 对 应 关系 已 被 建立 ,因此 MacMahon 的 指 
数 定 理 得 证 。 

D. Foata 和 M. P. Schiitzenberger 在 MacMahon 开创 性 的 著作 发 表 大 约 65 年 
后 ,发 现 了 对 MacMahon 定理 的 一 个 令 人 惊讶 的 扩充 :有 个 反 序 和 指数 1 的 n 个 元 
圭 的 排列 数 自 , 和 有 /个 反 序 和 捕 数 k 的 排列 数目 相同 。 事 实 上 ,Foata 和 
Schiitzenberger 发 现 了 在 第 一 类 和 第 二 类 排列 之 间 的 简单 一 一 对 应 (参见 习题 25)。 


习题 


1.[10] 排列 271845936 的 反 序 表 是 什么 ? 什么 样 的 排列 有 反 序 表 530121200? 
2.[M20] 在 经 典 的 Josephus 问题 中 (习题 1.3.2-22) ,” 个 人 开始 时 被 安排 在 一 个 圆 图 上 ; 然 
后 第 m 个 人 被 枪决 ,这 圆圈 收缩 ,而且 重复 地 消灭 每 第 m 个 人 直到 全 部 死 光 为 止 。 得 到 的 枪决 
次 序 是 和 1,2,…,n| 的 一 个 排列 。 例 如 , 当 n=8 和 和 m=4 时 ,次 序 是 54613872; 对 应 于 这 个 排 
列 的 反 序 表 是 36310010。 
当 枪 决 每 第 m 个 人 时 ,在 对 于 个 人 的 一 般 的 Josephus 问题 中 ,给 出 反 序 表 的 元 素 51 0 
… b, 的 一 个 简单 递 推 关 系 。 
3.[18] 如 果 排 列 al az … an 对 应 于 反 序 表 b1 6。 … 名 ,什么 是 对 应 于 反 序 表 
(nn -1-pb)(2 -2 一 02) 0- 0) 
的 排列 zi 2 … 2? | 
4.[20] 试 设计 适合 于 计算 机 实现 的 一 个 算法 , 它 构 造 对 应 于 满足 (3) 的 一 给 定 反 序 表 4b 6。， 
… 的 排列 ay ay … a,。[ 提 示 : 考 虑 链接 存储 (linked-memory) 技 术 。] 
5.[35] 习题 4 的 算法 在 典型 的 计算 机 上 要 求 大 致 与 n+ bi+… +6b, 成 正比 的 执行 时 间 , 因 
此 平均 说 来 ,为 9(n*)。 考 虑 是 否 有 算法 ,其 最 坏 运行 时 间 要 比 n* 阶 好 得 多 。 
p> 6.[26] 设计 一 个 算法 , 它 根 据 {1,2,… ,nn1 的 一 个 给 定 排列 cy a。… a, ,计算 其 反 序 表 51 6， 
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… b ,其 在 典型 计算 机 上 的 运行 时 间 基 本 上 同 n log n 成 比例 。 

7.[20] 除了 本 书 定义 的 特殊 反 序 表 5; 5，… 5 外 ,还 可 以 定义 若干 其 它 类 型 的 与 11,2， 
… ,n| 的 给 定 排列 cl ax … a 相对 应 的 反 序 表 ; 在 本 题 中 将 考虑 在 应 用 中 出 现 的 三 种 其 它 类 型 
的 反 序 表 。 

设 c 是 其 第 一 个 分 量 为 7 的 反 序 的 个 数 , 即 j 右边 小 于 j 的 元 素 个 数 [ 对 应 于 (1) 我 们 有 表 
000142157; 显 然 0<c<j]。 令 B=b ,C= ca。 

证 明 , 对 于 1 二 jm, 有 0B<j 和 0 二 Cn 一 j; 青 证明, 当 给 定 cl cx … 6c 或 Bl B … 
B, 或 C1 C，… C; 之 一 时 ,可 惟一 地 确定 排列 al ay … a,。 

8.[M24 ] 继续 使 用 习题 7 中 的 符号 , 设 a1 a … a 是 排列 ai ay … a 的 道 , 并 设 对 应 的 
反 序 表 为 1 62 … bc1c2 cc%,B1B2 … B% 和 C4 C2 … C%。 尽 你 所 能 , 找 出 在 a;,b;， 
cj，B;,C; ,a ,bc ,BCI 之 间 的 许多 有 趣 的 关系 。 

9.[M21] 在 习题 7 的 符号 下 ,证 明 : 当 且 仅 当 对 于 1 委 ) 委 ”有 = Ci 时 ,aa … a 是 一 

个 卷 积 ( 即 它 自己 的 道 )。 

10.[LRM20j 把 图 1 当做 一 个 三 维 的 多 面体 。 如 果 它 的 所 有 边 都 有 单位 长 度 , 试 问 截 八 面体 
的 直径 (顶点 1234 和 顶点 4321 之 间 的 距离 ) 是 多 少 ? 

11.[M25] 如 果 x=ala，… a 是 |1,2,…,n1 的 一 个 排列 , 设 E(x)= |(a;,a;)|i<j,a;> 
a;| 是 它 的 反 序 集合 ,并 设 

E(x) = {(a;,a;)|i> j,a: > ajl 

是 那些 “ 非 反 序 ”。 

a) 证 明 E(x) 和 E(x) 是 传递 的 (有 序 对 的 一 个 集合 S 称 为 是 传递 的 ,如 果 每 当 (a ,6b) 和 (5b， 
c) 都 在 S 中 时 , 则 (a,c) 在 S 中 )。 

b) 反 之 , 设 玉 是 T= zyy) | 1 委 y< xz 委 对 的 任何 传递 的 子 集 , 它 的 余 集 玉 = 个 \E 也 是 传 
递 的 。 证 明 存 在 一 个 使 E(x)=E 的 排列 x。 

12.[M28] 继续 使 用 上 题 的 符号 ,证 明 : 如 果 ri 和 x, 是 排列 , 且 如 果 玉 是 包含 E(x1)U 
E(x,) 的 最 小 传递 集合 , 则 玉 是 传递 的 。[ 因 此 ,如 果 每 当 E(x1)SSE(x;) 时 ,我 们 说 xz 在 x,“ 上 
面 " ,这 就 定义 了 排列 的 一 个 格 ; 在 两 个 给 定 的 排列 “上面 ", 有 惟一 的 "最低" 排列。 图 1 是 当 n=4 
时 格 的 图 式 。] 

13.[M23] 众所周知 ,行列 式 展开 中 有 一 半 的 项 有 + 号 ,有 一 半 的 项 有 - 号 。 换 言 之 , 当 ?之 
2 时 ,具有 奇数 个 反 序 的 排列 各 具有 偶数 个 反 序 的 排列 一 样 多 。 试 证 明 ,一 般 情 况 下 , 当 ?之 冯 
时 ,不 管 整数 1 为 何 , 反 序 个 数 模 m 同 余 于 上 的 排列 数目 为 n! /m。 

14.[M24 ](F. Frankjin( 富 兰 克 林 )) 把 分 成 个 不 同 部 分 的 分 划 可 用 式 n = pl + ps+…++ 
Pr 表示 ,其 中 ,pi >> p>… > p>0。 例如 ,把 7 分 成 不 同 部 分 的 分 划 为 :7,6+1,5+2,4+3,4+2 
+1。 设 有 h(n) 是 把 分 成 个 不 同 部 分 的 分 划 数 ; 试 证 明 ; 除 非 对 于 某 个 非 负 整数 ;,n 的 形式 为 
(3 挛 十 7)12 ,我 们 总 有 2 (一 1)?f(n) = 0; 否 则 ,和 数 是 (一 1);。 例 如 , 当 n = 7 时 ,和 数 是 -1+ 
3-1=1, 而 有 全 7=(3x22+2)/2[ 提 示 : 把 一 个 分 划 表 示 成 点 的 一 个 阵列 ,对 于 1 委 ; 委 4, 置 p 
个 点 于 第 i 行 中 , 试 求 使 得 p,,1 < p; -1 的 最 小 的 ;, 并 把 头 j 行 最 右边 的 点 圈 出 。 如 果 j < p, 则 
这 j 个 点 通常 可 被 移 走 ,把 它们 转 4$" ,并 作为 新 的 第 有 +1 行 放下 。 另 一 方面 ,如 果 j 之 pi, 则 第 上 
行 的 点 通常 可 移 走 ,把 它们 转 45° ,并 放 略 到 图 出 点 的 右边 ( 见 图 2) 。 这 一 过 程 在 大 多 数 情 况 下 ,把 
有 奇数 个 行 的 分 划 同 有 偶数 个 行 的 分 划 配 成 对 ,所 以 在 和 式 中 仅 需 考虑 未 配对 的 分 划 。] 
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图 2 具有 不 同 部 分 的 分 划 之 间 的 富兰克林 对 应 
注 ;作为 一 个 推论 ,我 们 得 到 欧 拉 公式 


(1 — z)(1 — 2)(1 — z3).… =]1—z—-z +z tz zt z+...- 
DY (C1) +) 
-Jw 


对 于 通常 的 分 划 ( 它 们 的 各 部 分 不 必 是 不 同 的 ) 的 生成 函数 为 >》) p(n)z” = 1/(1- z)(1 -2z2)(1 
- 2 )…; 因 此 ,我 们 得 到 分 划 数 的 一 个 不 显然 的 递 推 关 系 式 
p(n) = p(n—m1)+ p(n—2)— p(n —5)— p(n — 7)+ 
plnt+12)+ pln+15)—…: 
15.[M23] 证 明 (16) 是 对 于 至 多 分 成 ”个 部 分 的 分 划 的 生成 函数 。 即 ,证明 在 1/(1- =)(1 
2)(1T-22) 中 ，zm 的 系数 是 写 m = pl + pp; 十 … + p, 的 方式 个 数 , 其 中 Pi 宇 记 之 … 之 pp, 宇 0。 
[提示 :如 在 习题 14 中 那样 画 点 ,证 明 在 n 元 组 (pi, Pps，…,p,)(p1 宇 p; 宇 … 宇 p, 宇 0) 和 序列 
(Pi,P2,P3…)(n 之 Pi 之 P, 之 P; 之 … 之 0) 之 间 有 一 一 对 应 ,并 具有 人 性质 pi + p+… + p= Pit+ 
P,+ P;+…。 换 言 之 ,分 成 至 多 个 部 分 的 分 划 对 应 于 分 成 不 超过 nn 的 部 分 的 分 划 。] 
16.[M25 ](L. Euler) 借助 分 划 来 解释 下 列 恒等式 两 边 , 以 证 明 它 们 : 
1 1 
UL (1 -gz) (1—z)(1- gz)(1— gz) 
2 


I-g 9020 2*/ TL Go 


1 福安 


1+ 


ITG + ge) =(1+ z)(1+ gz)(1 + gx). = 


之 0 


1+—<—_+— <9 了 +. 
1-g (1- gq)(1- og’) 


>) "gq" "02) | (1 aq*) 
17.[20] 在 本 节 末 定义 的 MacMahon 对 应 中 ,使 (1,p;,p3; ps) = (0,0,0,0) 的 24 个 四 元 组 
(gq1,;92,93;94) 是 什么 ? 
18.LM30](T.Hibbard, CACM 6 (1963),210) 令 n>0, 并 设 2" 个 n 位 二 进 整 数 义 ,,…， 
X2” _ | 的 序列 已 经 随机 地 生成 ,其 中 每 个 数 的 每 一 个 二 进位 独立 地 以 概率 p 等 于 1。 考 虑 序列 X。 


@@0,X1@B1,…,X2"-1@@(2" -1) ,其 中 ,@ 为 对 二 进 表示 取 “ 异 或 "运算 。 于 是 ,如 果 p 0, 则 该 序 
列 为 0,1,…,2" 1, 而且 如 果 p=1, 则 该 序列 为 2" - 1,，…,1,0; 当 户 = 寺 时 ,这 个 序列 的 每 个 元 


素 是 0 和 2"-1 之 间 的 一 个 随机 整数 。 对 于 一 般 的 p, 这 是 生成 有 偏 倚 的 反 序 个 数 的 随机 整数 序 
列 的 一 个 有 用 的 方法 ,尽管 整体 上 序列 的 元 素 分 布 在 下 述 意义 上 是 一 致 的 , 即 每 个 ”位 二 进 整 数 
。18 ， 
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有 相同 的 分 布 。 作 为 概率 户 的 一 个 图 数 ,在 这 样 一 个 序列 中 反 育 的 平均 个 数 是 多 少 ? 
19.[M28 ](C.Meyer) 当 m 与 互 素 时 ,我 们 知道 ,序列 (mm mod n)(2m mod n)…((n—1) 
m mod 7) 是 |1,2,…,n 一 1 的 一 个 排列 。 证 明 这 个 排列 的 反 序 的 个 数 可 以 用 戴 德 金 和 数 来 表达 
(参见 3.3.3 小 节 )。 
20.LM43 ] 下 面 这 一 属于 雅 可 比 的 著名 恒等式 [Fundamenta Nova Theoriae Functionum Ellipti- 
carum (1829), 3 64] 是 涉及 椭圆 函数 的 许多 值得 注意 的 关系 式 的 基础 ; 
| 上 G -aoDG- wt) (1 wp) = 


(1 -zxz)1-z)L- ax wv)(l - wv)(1— Uv) = 
1 (utv) + vtu)— (uw +t wv)+ .= 
jy /firl 
> (一 yi (7) ,( 2 ) 


-<J<+t+% 


例如 ,如 果 置 x =z,v= x? ,我们 可 以 得 到 习题 14 的 欧 拉 公式 ,如 果 我 们 置 z= WV wfv ,9g = 
V uv , 则 得 到 
eno ed ee) 下 CD 


是 否 有 和 雅 可 比 恒 等 式 的 一 个 组 合 证 明 ,该 组 合 证 明 类 似 于 习题 14 中 特殊 情况 的 富兰克林 证 
明 ? (因此 我 们 要 考虑 “复数 分 划 ” 
m+ni= (pi+ qi)+ (p+ q2i) + + (pe + qei) 
其 中 pj; + qji 是 不同 的 非 零 复数 ,p, 和 9i 是非 负 整 数 且 | p; - q; | 委 1。 雅 可 比 恒等式 指出 ,& 为 偶 
数 的 这 样 的 表示 个 数 和 & 为 奇数 的 个 数 一 样 , 除 非 m 和 是 连续 的 三 角形 的 数 。) 复 数 分 划 有 什 
么 值得 注意 的 其 它 性 质 ? 

了 P21.[LM25 ] (G.D. Knott) 试 证 明 在 习题 2.2.,1-5 或 2.3.1-6 的 意义 和 习题 7 的 符号 下 , 当 且 

仅 当 对 于 1<j< ,GC41+1 时 ,排列 a，… av 可 通过 一 个 栈 得 到 。 

22.[M26」 给 定 11,2,…,n| 的 一 个 排列 ar … are 令 太 是 使 得 weE la +1， 
Qj 二 2,… ,Qj+!| 的 下 标 i<j 的 个 数 (如 果 w+ri<a ,这 个 集合 的 元 素 从 n“ 绕 回 " 到 1。 当 j=n 
时 ,我 们 使 用 集合 和 a; + 1,a, +2,… ,nl)。 例 如 ,排列 591823473 导 致 h1 … h。=00121 
424 56。 

a) 证 明 al az … ay 可 由 数 有 hh，… hh, 重新 构造 出 来 。 

b) 证 明 hi+hsy+…+h, 是 al a。… an 的 下 标 。 

了 > 23.[LM271]1( 俄 罗斯 轮 盘 赌 ) 一 组 较 之 数论 来 说 更 喜欢 概率 论 的 应 受 和 相 罚 的 个人, 坐 成 一 个 
圆圈 ,然后 修改 Josephus 方法 (习题 2) 如 下 : 头 一 个 囚犯 握 住 一 支 枪 并 瞄准 自己 的 头 部 ,他 以 概率 
户 死 去 并 离开 这 个 圈子 ,然后 第 二 个 人 以 相同 的 方法 拿 起 枪 继续 进行 。 这 个 游戏 循环 地 继续 ,并 
且 有 常数 概率 p >0, 直 到 每 个 人 都 死去 为 止 。 

如 果 & 这 个 人 是 第 7 个 死去 者 , 则 令 a =&。 试 证 明 死 亡 的 次 序 al a，… a, 以 这 样 一 个 概 
率 出 现 , 即 它 仅仅 是 ,请 和 对 偶 排 列 (z+1-a)…(2+l-a)(a+1l-ai) 的 下 标的 函数 。 什 么 
死亡 的 次 序 的 可 能 性 最 小 ? 

24.[M36] 给 定 整数 1(1):(2)…i(n) 且 1()) 之 j ,一 个 排列 al ay … a 的 推广 指数 是 使 得 
Qa; 之 i(a)+1) 的 所 有 下 标 之 和 ,加 上 使 得 i<; 和 1(a) 之 a; > a) 的 反 序 的 总 数 。 于 是 对 于 所 有 j， 
当 1(j)=j 时 ,推广 指数 和 指数 是 一 样 的 。 但 当 对 于 所 有 j,i(j) 宇 n 时 , 它 是 反 序 的 数 自 。 试 证 
明 其 推广 指数 等 于 的 排列 的 个 数 和 有 个 反 序 的 排列 的 个 数 相同 。[ 提示 :证 明 , 如 果 我 们 取 


.19 。 


第 5 章 排序 


11,…,n 一 十 的 任何 排列 a，… a;-1, 并 且 把 数 n 插入 到 所 有 可 能 的 位 置 ,通过 在 某 个 次 序 之 下 


的 数 {10,1,…,n 一 1| ,我 们 可 以 增 如 推广 指数 。 
P25.[M30](Foata 和 Schiitzenberger) 如 果 a=a，… a, 是 一 个 排列 , 令 ind(a) 是 它 的 指数 ， 
inv(w) 统 计 它 的 反 序 。 


a) 定 义 |1,…,n| 的 每 个 排列 a 到 排列 f(a) 的 一 一 对 应 关系 ,其 中 f(a) 有 以 下 两 个 属性 :(i) 
ind( f(a))=inv(a);(ii) 对 于 1j< 之 nn, 数 7 出 现在 f(a) 中 ;+1 的 左边 , 当 且 仪 当 它 出 现在 中 
j+1 的 左边 。 当 a=198263745 时 你 的 构造 指定 什么 排列 到 f(a)? 对 于 什么 排列 a, 有 
f(a)=198263745? [提示 ;如 果 n>>1, 写 a = ziaiza… Xiarawn; 其 中 如 果 a < a,，, 则 
ZX1，,"… ,Xi 全 是 小 于 a, 的 元 素 ,否则 x1,… ,zx, 全 是 大 于 a 的 元 素 ; 其 它 的 元 素 出 现在 (可 能 是 
空 的 ) 串 ci …,o 中 。 比 较 h(a)=alzia2x2…arrs 到 inv(a) 的 反 序 的 数目 ;在 这 个 构造 中 数 a， 
不 出 现在 h (a) 中 。] 

b) 使 用 f 来 定义 另 一 个 一 一 对 应 关系 g, 它 有 以 下 两 个 属性 : (i) ind(g (a))= inv(a);(ii) 
inv(g(a))=ind(a)[ 提 示 ; 考 虑 道 排列 ]。 

26.[M25] 什么 是 反 序 的 个 数 和 一 个 随机 排列 的 指数 之 间 的 统计 关联 系数 (参见 等 式 3.3.2- 
(24))? 


27.[M37] 证 明 , 除 了 (15) 之 外 ,在 inv(al ay … a,) 和 nn 元 组 (4q1,g;,…,9,) 之 间 有 一 个 简 

单 的 关系 。 使 用 这 一 事实 来 推广 (17) 的 推导 ,并 得 到 双 变 量 生成 消 数 的 一 个 代数 特征 : 
有 (四 sz) = YY woe) zindtaloa on) 
其 中 这 个 和 是 对 于 所 有 的 n! 个 排列 ay ay … av 来 进行 的 。 
>28.[25](R.W.Floyd,1983) 如 果 al a，… a, 是 和 1,2,…,n| 的 一 个 排列 , 它 的 总 位 移 (Total 

Displacement) 被 定义 为 2 | ai -了 | , 试 借助 于 反 序 的 数目 , 求 总 位 移 的 上 限 和 下 限 。 

29.[28] 如 果 x=aia，…a, 且 x =aa” oo 是 |1,2, ,2 的 排列 ,它们 的 乘积 xx 
为 a。 ao *， an 。 设 inv(x) 如 同 在 习题 25 中 一 样 ,表示 反 序 的 数目 。 试 证 明 inv( rr ) 委 inv(r) 
+inv(r ) ,而 且 等 式 成 立 当 且 仅 当 在 习题 12 的 意义 下 rr 是 在 r “之 下 


“5.1.2 多 重 集合 的 排列 


至 此 我 们 已 经 讨论 了 一 个 元 素 集合 的 排列 ;这 仅仅 是 多 重 集合 排列 概念 的 一 种 
特殊 情况 (一 个 多 重 集合 和 一 个 集合 一 样 , 只 是 它 可 以 具有 重复 的 相同 元 素 。 在 习 
题 4.6.3-19 中 已 经 讨论 了 多 重 集 合 的 某 些 基本 性 质 )。 

例如 ,考虑 多 重 集合 


M= la,a,a,b,b,c,d,d,d,d | (1) 


它 包含 3 个 a,2 个 6,1 个 < 和 4 个 &。 我 们 也 可 以 用 另外 的 方式 来 表示 元 素 多 重 
性 , 即 





M= {13.4a,2.b,c,4.4| (2) 
M 的 一 个 排列 "也 是 它 的 元 素 排 成 一 行 的 一 种 排 法 ,例如 


”排列 (permutation) 有 时 称 为 permatution。 
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cabddabdad 

从 为 一 个 观点 来 看 ,我 们 又 称 它 为 包含 3 个 a,2 个 5,1 个 c 和 4 个 4d 的 字母 串 。 

M 有 多 少 可 能 的 排列 ? 如 果 我 们 把 M 的 元 素 都 当做 不 同 的 ,通过 给 它们 置 下 
标 a1,a2,a3,b1,62,c1,d1,4d2,d3,4d4, 则 将 有 10! = 3 628 800 个 排列 。 但 是 当 去 
挥 这 些 下 标 时 ,它们 当中 有 许多 实际 上 是 相同 的 。 事实 上 , M 的 每 个 排列 恰好 出 现 
31211141==288 次 ,因为 我 们 可 以 由 M 的 任何 排列 开始 ,以 31 种 方式 对 a 置 下 标 ， 
(独立 地 ) 以 21 种 方式 对 5 置 下 标 ,以 1 种 方式 对 c 置 下 标 , 以 及 以 41 种 方式 对 4 
置 下 标 ,因此 M 的 真正 排列 个 数 为 


101 
2 一 2 000 
一 般 说 来 ,通过 相同 的 论证 ,我们 能 看 到 ,任何 多 重 集合 的 排列 个 数 是 多 项 式 系 


a (3) 


nln! 
其 中 ni 是 一 类 元 素 的 个 数 ,n, 是 另 一 类 元 素 的 个 数 ,等 等 ; 且 n= ni+n,+… 是 元 
素 的 总 数 。 

人 们 掌握 一 个 集合 的 排列 个 数 已 有 1500 余年 的 历史 。 犹 太 哲 学 神秘 主义 的 最 
早 文字 著作 ,Hebrew( 希 伯 菜 ) 的 Book of Creation (大 约 公 元 400 年 ) ,就 给 出 了 头 7 
个 阶乘 的 正确 值 。 在 给 出 此 值 后 ,该 书 说 “继续 往 下 就 会 得 到 嘴 不 能 说 和 耳 不 能 听 
的 数 了 [Sefer Yetzirah ,第 4 章 结 尾 。 请 见 Solomon Gandz,Studies in Hebrew AS- 
tronomy and Mathematics (New York: Ktav,1970),494~ 496; Aryeh Kaplan, Sefer 
Yetzirah (York Beach,Maine:Samuel Weiser,1993)。] 这 是 历史 上 第 一 个 已 知 的 排列 
的 枚 举 。 第 二 个 出 现在 印度 经 典 的 Anuyogadvara-sutra ( 约 公元 500 年 ) ,规则 97, 对 
于 路 不 是 递增 顺序 也 不 是 递 降 顺 序 的 6 个 元 素 的 排列 的 个 数 ,给 出 公式 

6xSx4x3x2x1i-2 
[参见 G. Chakravarti, Bull. Calcutta Math. Soc. 24(1932) ,79 一 88。 Anuyogadvara- 
sutra 是 普 那 教规 许多 书 中 的 一 本 ,该 教 是 在 印度 兴盛 起 来 的 一 个 宗教 派别 。] 

多 重 集合 的 排列 的 相关 公式 似乎 最 初出 现 于 Bha&scara Achiarya 的 Li6vat (大 约 
公元 1150 年 ) ,270 一 271 中 。Bhascara 以 稍微 简洁 的 方式 指出 这 个 规则 ,而 且 仅 仅 
以 两 个 简单 的 例子 12,2,1,11 和 14,8,5,5,5 来 说 明 它 。 结 果 , 他 的 著作 的 英文 翻译 
并 不 都 能 正确 地 指出 该 规则 ,尽管 很 少 有 人 怀疑 Bhiscara 是 否 真 知道 他 在 谈论 什 
么 。 对 于 20 个 数 48555+45855+… 之 和 ,他 曾经 给 出 了 有 趣 的 公式 

(4+8+5S5+5+5) x 120 x 11111 
Sx6 

当 只 有 一 个 元 素 被 重复 时 ,计算 排列 数 的 正确 规则 是 由 德国 耶稣 会 学 者 
Athanasius Kircher 在 他 关于 音乐 的 长 篇 论文 [Musurgia Universalis 2(Rome,1650)， 
5 一 7] 中 发 现 的 。 他 对 一 个 给 定 的 音符 集合 所 能 作成 的 曲调 数目 很 感 兴趣 ,所 以 ,他 
必 想 了 他 所 谓 的 “音乐 算术 ”, 即 从 给 定 音 符 的 给 定 汇集 中 作出 的 变调 个 数 。 在 他 论 
. 21 . 
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文 的 18 一 21 页 中 ,对 于 若干 个 mx 和 的 值 ,他 正确 地 给 出 了 多 重 集合 |m*C,n: 
D1 的 排列 个 数 ,尽管 他 没有 揭示 除 n = 1 之 外 他 的 计算 方法 。 

随后 ,一般 的 规则 (3) 出 现 于 Jean Prestet 的 论文 Eléments de Mathématiques 
(Paris:1675),351 一 352 中 。 该 书 是 西方 世界 写 得 非常 早 的 解说 组 合 数学 的 书 之 
一 。Prestet 正确 地 叙述 了 一 般 多 重 集 合 的 规则 ,但 是 仅 以 简单 的 情况 ia,a,b,。b， 
c,c| 来 说 明 它 。 他 特别 指出 , 除 以 阶乘 之 和 的 方法 ,已 行 不 通 了 ,他 认为 这 种 除法 是 
Kircher 规则 的 自然 的 推广 。 几 年 之 后 , John Wallis 在 Discourse of Combinations 
(Oxford:168$) 的 第 2 章 ( 与 他 的 Treatise of Algebra 一 同 出 版 ), 给 出 了 对 这 一 规则 
的 更 详细 的 讨论 。 

1965 年 ,Dominique Foata 引进 了 称 为 “插入 乘积 ”的 一 项 新 疾 的 思想 ,使 得 有 可 
能 把 关于 通常 排列 的 许多 已 知 结果 ,推广 到 多 重 集 合 排列 的 一 般 情况 [ 见 Publ. In- 
st. Statistigue, Univ. Paris, 14 (1965), 81 一 241; 也 见 Lecture Notes in Math. 85 
(Springer,1969)。] 假 定 一 个 多 重 集合 的 元 素 是 在 某 种 方式 下 线性 有 序 的 ,我 们 就 可 
以 考虑 两 行 的 表示 法 ,例如 

aaabbcadddd 
人 (4) 

其 中 ,上 面 一 行 包 含 以 非 减 次 序 排 好 序 的 M 的 元 素 , 而 下 面 一 行 是 排列 本 喘 。 
两 个 多 重 集合 排列 a 和 8B 的 村 入 乘积 < TB 定义 如 下 :(a) 以 两 行 表示 法 表达 w 和 BB; 
(b) 连 接 这 些 两 行 的 表示 ;(c) 把 这 些 列 排序 ,使 上 行 成 为 非 减 次 序 。 这 个 排序 应 在 
这 样 一 种 意义 下 是 “稳定 的 ”, 即 : 当 上 面 一 行 的 对 应 元 素 相 等 时 ,下 面 一 行 元 素 目 左 
至 右 的 次 序 应 被 保持 。 例 如 ,cadabTbddad=cabddabdad, 因 为 


aapbcd abddad aaabbcddaddad 
人 (5) 


cadab bddad cabddabdad 
容易 看 出 ,插入 乘积 运算 是 可 结合 的 , 即 
(aTB)TY=aT(BTY) (6) 
而 且 它 也 满足 消去 律 


TQ=xTh 列 炙 a=8p (7) 
aTr=ApTrr 天 a=8B 
有 一 个 “ 恒 等 元 素 ” 
QT 一 Ta 一 4 (8) 
其 中 * 是 零 排列 , 即 空 集 的 “ 排 法 ”。 一 般 情况 下 ,交换 律 不 成 立 ( 见 习题 2) ,但 我 们 
有 


aTB= Bra 如果 a 和 8 没有 公共 字母 (9) 
按 类 似 的 方式 ,我 们 可 以 把 轮换 (Cycle) 的 概念 推广 到 元 素 重 复 的 情况 ; 令 
(Z1 ZX» ri) (10) 


表示 以 一 种 稳定 的 方式 ,根据 其 项 部 的 元 素 把 
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全 1 


zy X3 XI 
的 列 进行 排序 ,所 得 到 的 两 行 形式 的 排列 。 例 如 我 们 有 
dbddacaabd aaabbcdddd 
(dbddacaabd) = (99 soa) (Usadabaag 
所 以 ,排列 (4) 实 际 上 是 一 个 轮换 。 可 以 这 样 描述 一 个 轮换 ,比方 说 “a 变 为 6 变 为 4 
恋 为 4d 变 为 …… 变 为 d 变 回来 "。 注 意 ,这 些 一 般 的 轮换 不 具有 通常 轮换 的 所 有 性 
质 ;(zi x，…z, ) 不 总 是 和 (x，…x, zx1) 一 样 。 
在 1.3.3 小 节 就 注意 到 ,一 个 集合 的 每 个 排列 可 以 惟一 地 (在 不 计 次 序 的 意义 
下 ) 表 示 为 不 相交 轮换 的 一 个 乘积 ,其 中 排列 的 “乘积 "由 一 种 合成 规则 定义 。 容 易 
看 出 ,不 相交 轮 揪 的 乘积 完全 等 同 于 它们 的 播 人 秃 积 ;这 提示 我 们 ,能 够 推广 以 前 的 
结果 ,把 一 个 多 重 集 合 的 任何 排列 (在 某 种 意义 下 ) 惟 一 地 表示 为 轮换 的 插 和 人 乘积 。 
事实 上 ,至 少 有 两 种 自然 的 方式 来 做 到 这 一 点 ,每 一 种 都 有 重要 的 应 用 。 
等 式 (5) 说 明了 把 capddapdad 分 解 为 较 短 排列 的 插入 乘积 的 一 条 途径 ; 
让 我 们 考虑 求 出 一 个 给 定 排 列 x 的 所 有 分 解 x = a TB 的 一 般 问题 。 当 研究 这 个 分 
解 因 子 问 题 时 ,考虑 一 个 特殊 的 排列 是 有 帮助 的 ,例如 考虑 
aabbbbbcccddddd 
由 了 (12) 
如 果 我 们 能 以 形式 a T8 来 写 这 个 排列 ,其 中 a 至 少 含 字母 a 一次, 则 a 的 两 
行 记号 的 上 面 一 行 中 ,最 左边 的 a 必须 出 现 于 字母 d 之 上 ,所 以 a 至 少 也 包含 字母 
d 的 一 次 出 现 。 如 果 现 在 观察 x 上 面 一 行 中 最 左边 的 4d, 则 同样 看 到 它 必须 出 现 于 
字母 4 之 上 。 所 以 ,a 必须 至 少 含 有 两 个 d。 考 察 第 二 个 4 ,我 们 看 到 ;a 也 必须 含 
有 一 个 6。 在 仅仅 假定 a 是 x 的 一 个 含有 字母 a 的 左 因子 之 下 ,有 部 分 绪 泉 
a b dd 
w = | se ‘0 …] (13 ) 
d db 
以 同样 方式 继续 进行 ,发现 (13) 上 面 一 行 中 的 5b 必须 出 现 于 字母 c 之 上 ,等 等 。 最 
后 ,这 个 过 程 将 再 次 达到 字母 a ,并 且 可 以 认为 这 个 a 就 是 头 一 个 a ,如 果 我 们 选 定 
这 样 做 的 话 。 刚 才 的 论证 实质 上 证 明了 (12) 的 含有 字母 a 的 任何 左 因 子 c ,有 形式 
(ddbcdbbca)ra ,其 中 ,a 是 某 个 排列 。( 把 a 写 在 这 个 轮换 的 最 后 而 不 是 最 
前 边 比较 方便 。 由 于 仅 有 一 个 a ,这 是 允许 的 。) 类 似 地 ,如 果 假 定 a 含有 字母 5b, 则 
我 们 就 会 导出 a= (cadda b)ra ,其 中 a 是 菜 个 排列 。 
一 般 说 来 ,这 个 论证 表明 ,如 果 我 们 有 任何 因子 分 解 a TB= x, 其 中 a 含有 一 个 
给 定 的 字母 y, 则 有 形 为 
(Xi XAy), nn0， Xi ,Xn 天 YY (14) 
的 人 惟一 轮换 , 它 是 a 的 一 个 左 因 子 。 当 给 定 x 和 y 时 ,这 个 轮换 容易 确定 ; 它 是 r 的 
含有 字母 y 的 最 短 左 因子 。 这 项 发 现 的 推论 之 一 是 下 面 的 定理 。 
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定理 A 变 多 重 集 台 M 的 元 未 对 于 关系 "< " 线 作 有 有 序 。M 的 每 个 排列 x 可 众 
一 地 表示 为 下 列 播 人 乘积 : 


和 区 一 (Z1Zln 231 下 《2Z21 2m Y2) TT (Te Tn ye) ,1 之 0 (15) 
月 满 忠 下 列 两 个 条 件 : 
yy 
yi < zi 对 于 1<j<n, 1l1<i<! (16) 
( 换 句 话说 ,每 个 轮换 中 最 后 的 元 素 小 于 其 它 元 素 ,并 且 最 后 元 素 的 序列 是 按 非 减 次 
序 排列 的 。) 
证 明 如果 x=¢, 则 我 们 通过 令 上 =0 而 得 到 这 样 一 个 因子 分 解 。 否 则 令 yi 
是 被 排列 的 最 小 元 素 ;而 且 如 上 面 的 例子 那样 ,我们 来 确定 x 的 含 yi 的 最 短 左 因子 
(zi zi Y1)。 现在 ,x = (zu…zin y1)TP;, 其 中 jp 为 某 个 排列 ;通过 对 长 度 施行 
归纳 法 ,可 以 写 出 
O 一 (Za21 T2n, 2) T “TT (Za Ti 1), 1 之 1 
它 满 足 (16) 的 条 件 ,这 就 证 明了 这 样 一 个 因子 分 解 的 存在 性 。 
反之 ,来 证 明 满 足 (16) 的 表示 (15) 是 惟一 的 。 显 然 ,t=0, 当 且 仅 当 x 是 零 排 列 
¢。 当 1>0 时 ,(16) 意 味 着 y1 是 被 排列 的 最 小 元 素 ,而 且 (zia zi yi) 是 含有 yi 
的 最 短 左 因 于 。 因 此 ,zi…zt yi) 是 惟一 确定 的 ;由 消去 律 (7) 和 归纳 法 可 知 ,这 
个 表示 是 惟一 的 。 | 
例如 , 耕 a<5b<c<d, 则 满足 给 定 条 件 (12) 的 “典型 的 "因子 分 解 ,是 
(ddbcdbbea)ri (ba)r (cdb)r(d) (17) 
说 明 这 样 一 点 是 重要 的 , 即 我 们 实际 上 可 以 把 这 个 表示 中 的 圆 括 弧 和 f+ 都 去 掉 ， 
而 不 致 引起 二 义 性 ! 每 个 轮换 恰 在 剩 下 的 最 小 元 素 头 一 次 出 现 之 后 结束 。 所 以 这 
个 构造 把 排列 
rr =ddbcdbbcabacdbd 
同 原来 的 排列 
T= dbcbcacdaddbbbd 


联系 在 一 起 。 当 x 的 两 行 表示 有 形 如 > 的 一 个 列 ( 其 中 x<y) 时 ,相关 联 的 排列 


就 有 一 对 应 的 相 邻 元 素 对 偶 … yzx…。 因 此 ,我 们 的 例子 的 排列 x 有 形 如 4 的 3 个 
列 ,x 就 有 对 偶 db 的 3 次 出 现 。 一 般 地 说 ,这 个 构造 建立 了 下 列 值 得 注意 的 定理 。 


定理 B 设 M 是 一 个 多 重 集 台 ,在 M 的 排列 之 间 存 在 一 个 一 一 对 应 ,使得 如 时 
xf 对 应 于 r  , 则 下 列 条 件 成 立 : 
a)x 最 左边 的 元 票 等 于 r 最 左边 的 元 疼 ; 


b) 对 所 有 满足 x<y 的 排列 后 的 元 素 对 偶 (x,y), 在 xt 的 两 行 表示 装 中 的 列 》 
。 24 。 
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出 更 的 次 数 ,等 于 在 x 中 y 直接 站 x 之 前 的 次 数 。 


当 M 是 一 个 集合 时 ,这 实质 上 就 等 同 于 我 们 在 靠近 1.3.3 小 节 结 尾 处 讨论 的 
“不 寻常 的 对 应 ”, 只 有 一 些 不 重要 的 变化 。 定 理 B 中 的 更 一 般 的 结果 对 于 枚 举 特 殊 
类 型 的 排列 是 十 分 有 用 的 ,因为 以 两 行 约束 为 基础 来 解决 一 个 问题 , 比 起 以 一 个 相 
邻 对 偶 约 束 为 基础 来 解决 等 价 的 问题 ,通常 要 更 容易 些 。 

P. A. MacMahon 在 其 章 作 Combinatory Analysis 1 (Cambridge Univ. Press, 
1915) ,168 一 186 中 考虑 了 这 种 类 型 的 问题 。 他 对 M 仅 含 两 种 不 同类 型 的 元 素 
一 一 比如 说 a 和 6 一 一 的 特殊 情况 ,给 出 了 定理 B 的 一 个 构造 性 证 明 。 对 于 这 种 情 
况 ,他 的 构造 本 质 上 同 这 里 所 给 出 的 是 一 样 的 ,尽管 他 的 表达 形式 十 分 不 同 。 对 于 
3 种 不 同 元 素 a ,b,c 的 情况 ,MacMahon 给 出 了 定理 B 的 一 个 复杂 的 非 构 造 性 的 证 
明 ;一 般 的 情况 是 由 Foata 第 一 个 构造 性 地 证 明 的 [Comptes Rendlus Acad. Sci. 258 
(Paris,1964) ,1672 一 1675 |。 

作为 定理 B 的 一 个 非 显 然 的 例子 ,让 我 们 来 求 恰巧 含有 

A 字母 a 的 A 次 出 现 
B 字母 6 的 B 次 出 现 
C 字母 c 的 C 次 出 现 
k& 相 邻 的 字母 对 偶 ca 的 & 次 出 现 
1l ” 相 邻 的 字母 对 偶 cb 的 1 次 出 现 


m 相 邻 的 字母 对 偶 ba 的 m 次 出 现 (18) 
的 字母 a ,b,c 的 串 数 。 本 定理 告诉 我 们 这 等 同 于 形 如 
A B C 


A~k—m u's Wt a's Rb's ( 19) 
ge / 一 
B-1 b's 1 b's 


的 两 行 数组 的 个 数 。 这 些 a 可 以 以 


nll 


种 方式 放置 在 第 二 行 中 ;然后 诸 6b 可 以 以 
(8+)(C-*) 
甩 -7 / 


:I 。 
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种 方式 放置 在 剩余 的 位 置 上 。 剩 下 的 空位 置 必须 以 诸 c 来 填 上 ;因此 所 求 的 数目 是 


em)lm)lilla i oo0) 


让 我 们 回 到 求 出 一 个 给 定 排列 的 所 有 因子 分 解 的 问题 。 是 否 存 在 一 个 “ 素 ” 排 
列 , 即 除开 它 本 号 和 < 外 ,没有 插入 乘积 因子 的 排列 ? 定理 A 之 前 的 讨论 很 快 地 给 
我 们 导出 了 结论 , 即 :一 个 排列 是 标的 , 当 甩 仅 当 它 是 一 个 无 重复 元 素 的 轮换 。 因 
为 ,如 采 它 是 这 样 一 个 轮换 , 则 我 们 的 论证 证 明 ,除开 和 它 本 身 之 外 没有 左 因子 。 
而 且 如 有 果 一 个 排列 含有 一 个 重复 的 元 素 y, 则 它 就 有 一 个 其 中 y 仅 出 现 一 次 的 非 显 
然 的 轮换 左 因子 。 

一 个 非 素 的 排列 可 以 被 分 解 成 越 来 越 小 的 块 ,直到 它 已 被 表达 成 素 排 列 的 乘积 
为 止 。 其 次 ,我 们 可 以 证 明 ,如 果 忽 略 可 交换 的 因子 的 次 序 , 则 这 个 因子 分 解 是 惟一 
的 。 


定理 C 一 个 多 重 集 台 的 每 个 排列 部 可 以 写成 一 个 恬 积 
0lTaoT…To，zL 之 0 (21 ) 
其 中 ,每 个 oj 是 没有 重复 元 灯 的 一 个 论 换 。 在 下 面 的 意义 下 ,这 个 表示 是 惟一 的 , 即 
同一 排列 的 任何 两 个 这 样 的 表示 ,可 以 通过 他 次 地 交换 相 侣 的 不 相交 轮换 对 偶 的 办 
法 筑 此 甘 换 。 
“不 相交 轮换 "这 一 术语 意味 着 没有 公共 的 元 素 。 作 为 该 定理 的 一 个 例子 ,我 们 
可 以 验证 ,排列 
2 
baacdbrc 
恰 有 5 种 分 解 为 素 因 子 的 方式 , 即 
(ab)T (l(a) (cd)r (be) =(ab)T (lcd) (a)T (be) 一 
(ab)+ (lcd) (be) (a) 一 
(cd)+ (ab)T (be)T (a) = 
(cd)r+(ab)Tr(la)T (be) (22) 
证 明 我 们 必须 证 明 ,所 述 的 惟一 性 成 立 。 通 过 对 排列 的 长 度 用 归纳 法 ,只 需 
证 明 :如 果 p 和 ce 是 没有 重复 元 素 的 不 相等 的 轮换 , 且 如 末 
Tao=o7B 
则 po 和 sa 是 不 相交 的 ,而 且 对 于 某 个 排列 0, 有 
a=oT0,8B= oT0 
如 果 y 是 轮换 jp 的 任何 元 素 , 则 含有 元 素 y 的 a TB 的 任何 左 因 了 于 ,必然 含有 p 
作为 一 个 左 因 子 。 所 以 如 果 p 和 o 有 一 个 公共 的 元 素 , 则 c 是 po 的 一 个 倍数 ;因此 o 
= p( 因 为 它们 是 素 的 ), 这 同 我 们 的 假定 矛盾 。 故 含有 y 且 同 o 没有 公共 元 素 的 轮 
换 ,必然 是 8 的 一 个 左 因子 。 通 过 使 用 消去 律 (7) ,这 个 证 明 就 完成 J。 | 
作为 定理 C 的 一 个 例子 ,我们 考虑 由 A 个 a,B 个 5 和 C 个 c 组 成 的 多 重 集合 
。 26 ， 
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M=1A'a,B"b,C'c} 的 排列 。 设 N(A,B,C,m) 是 M 的 排列 个 数 ,其 两 行 表 未 
法 不 含有 形 如 。 , “的 列 , 而 恰 含有 mm 个 形 如 。 的 列 。 由 此 得 出 , 形 如 。 的 列 恰 


有 A 一 nw 个 , 形 如 的 恰 有 B- 功 个 , 形 如 “的 有 CB+ 个 , 形 如 的 有 C-A+ 
m 个 ,以 及 形 如 ”的 有 A+B-C- 吉 个。 因此 : 


vancm (Ne tse) 0 


定理 C 告 诉 我 们 ,可 以 以 男 一 种 方式 计算 这 些 排列 :由 于 排除 了 形 如 ” “的 


列 ,这 一 排列 仅 有 的 可 能 的 素 因 子 为 

(ab),(ac),(be),(abe),(acb) (24) 
这 些 轮换 中 的 每 一 对 至 少 有 一 公共 字母 ,所 以 分 解 成 素 因 子 是 完全 惟一 的 。 如 来 轮 
换 (a 5 c) 在 因子 分 解 中 出 现 & 次 , 则 以 前 的 假设 意味 着 (a 0) 出 现 六 次 《8c) 
出 现 C-A+ 力 一 有 次 ,(ac) 出 现 C 一 有 二 7 一 太 次 ,以 及 (acp) 出 现 A+B-C- 一 
2m + 上 次。 因此 N(A,B,C,m) 是 这 些 轮换 的 排列 个 数 (一 个 多 项 式 系数 ), 对 & 
求 和 : 


N(A,B,C,m) = 
>) (C+m—&)! 

- (m—k)N(C-Atm-k)(C-Btm—-k)RI(A+B-C-2m+k)! 
DV | 63 


同 (23) 比 较 ,发 现下 列 恒等式 一 定 成 立 : 


(ee 


这 是 在 习题 1.2.6-31 中 遇 到 的 恒等式 , 即 
rs) S)(R)= (8s)() er 


其 中 ,M=A+B-C-m,N=C-B+t+m,R=B,S=C, 以 及 j=C-B+m-k。 
”类 似 地 ,可 以 计算 1A'a,B'5,C*c,D'a1 的 排列 个 数 ,使 得 其 中 各 种 类 型 的 列 
的 个 数 指定 如 下 : 


列 的 类 型 ， 4 a b b C C d d 
a pb a C D a a C 
次 数 : > A-row B-g B-A+r D-r A-g D-A+t+g 


(28) 
(这 里 A+C=B+DD。) 于 是 对 于 某 个 *, 在 这 种 排列 的 素 因子 分 解 中 可 能 出 现 的 毗 
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换 是 (见习 题 12): 
轮换 : (& p) (bc) (ca) (da) (abecea) (dcba) 
次 数 : A 一 rr-sB-g-sD-r-sA-g-;s 8 QI 一 AT+7 十 5 
(29) 
在 这 种 情况 下 ,轮换 (a 5) 和 (cq&) 可 相互 交换 ,而 且 (2c) 和 (da a) 亦 然 ,所 以 必须 计 
算 不 同 的 素 因 子 分 解 的 个 数 。 结 果 是 (见习 题 10) ,总 有 一 个 惟一 的 因子 分 解 ,使 得 
(c qd) 之 后 不 会 紧 跟 (a 5), 且 (4d a) 之 后 不 会 紧 跟 (5c)。 因 此 ,由 习题 13 的 结果 ,有 


恒等式 
D0) )( ex 


si \t -rr—-s—1 B—-gq—s 
Di 
(D—-r-s)l(A—-g—-s)lsli(g—-A+t+r+s)! 


oa 
从 公式 两 边 去 掉 因 子 | ，- ，| 并 稍微 简化 阶乘 , 剩 下 版 显 复杂 的 5 个 参数 的 恒等式 
A-g }- 


si\t 5 Di+gq—r-t D—-r-s/\r+i—g 
A\/B+D-A\/B 
四 ja 30) 
r D—r gq 


利用 (27) 可 实现 对 s 求 和 ,而 且 对 z 的 和 数 也 容易 计算 ;所 以 ,在 完成 所 有 这 些 之 
后 ,我们 未 能 有 笠 发 现 尚 不 知 如 何 导 出 的 任何 恒等式 。 但 是 至 少 我 们 已 经 学 习 了 以 
两 种 不 同 的 方式 计算 某 些 类 型 的 排列 ,而 且 这 些 计 算 技术 对 于 以 后 的 问题 是 一 个 很 
好 的 训练 。 


习 十 


1.LM05] 真 或 假 : 设 MI 和 M, 是 多 重 集合 ,如 果 a 是 Mi 的 一 个 排列 ,8 是 M, 的 一 个 排列 ， 
则 a TB 是 M1iUM, 的 一 个 排列 。 

2.[10]j 在 (5) 中 计算 了 cada5b 与 bd dad 的 插入 乘积 ; 试 求 当 交换 因子 时 得 到 的 插入 乘积 
bddadTtcadab。 

3.[M13] (9) 的 逆 成 立 否 ? 换言之 ,如 果 w 和 8 在 插入 乘积 中 可 交换 , 则 它们 必须 没有 公共 
字母 吗 ? 

4.[MI1] 当 4a<6b<c<4d 时 ,在 定理 A 的 意义 下 ,(17) 中 给 出 了 (12) 的 典型 因子 分 解 。 试 求 
当 4d<c<65b<a 时 对 应 的 典型 因子 分 解 。 

5.[M23] 定理 B 的 条 件 b) 要 求 z<y; 如 果 把 这 个 关系 减弱 为 zx 委 y, 则 会 发 生 什 么 情况 ? 

6.[M15] 问 这 样 的 串 有 和 多少; 它 恰 含 有 mm 个 a,n 个 5, 又 无 其 它 字母 ,而且 恰 在 & 个 a 的 前 
面 都 有 一 个 2? 
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7.[ M21] 满足 条 件 (18) 且 以 字母 a 打头 的 字母 a ,b,c 的 串 有 多 少 ? 以 字母 5 打头 的 呢 ” 以 
字母 c 打头 的 呢 ? 

> 8.[20] 求 把 (12) 分 解 成 两 个 因子 a TB 的 所 有 因子 分 解 。 

9.[33] 试 写 出 把 一 个 给 定 的 多 重 集合 的 排列 ,分 解 成 定理 A 和 定理 C 所 述 的 形式 的 计算 机 
程序 。 

10.[M30] 真 或 假 :尽管 根据 定理 C 分解 素 因子 不 真正 惟一 ,但 我 们 可 以 以 下 列 方式 确保 惟 
一 性 :存在 素 排列 集合 的 线性 次 序 夫 ,使 得 一 个 多 重 集合 的 每 个 排列 有 惟一 的 素 央 子 分 解 cl T 
os T…To, 它 满足 条 件 ; 对 于 1 委 i< nm, 当 co 与 cl 可 交换 时 ,二 air。 

P11.[M26] 设 5l,c,…,o 是 没有 重复 元 素 的 轮换 。 如 果 i<j 且 6o; 至 少 同 o, 有 一 个 公共 字 
母 , 则 说 zx, 《x ,这 样 就 定义 了 个 对 象 1x1,…,z,1 上 的 偏 序 飞 。 证 明定 理 C 和 2.2.3 小 节 拓 扑 
排序 的 思想 之 则 的 下 列 联系 ;ol To T…To 的 不 同 素 因子 分 解 的 数目 ,是 对 给 定 的 偏 序 进行 拓 
大 排序 的 方式 个 数 ( 例 如 对 应 于 (22) ,我 们 发 现 有 5 种 方式 对 次 序 zi 屋 z2,x3 《x4,X1 《x4 拓 
扑 排序 )。 反 之 ,给 定 t 个 元 素 的 任何 偏 序 ,就 有 一 轮换 集合 

joyoy ai| 
以 所 述 的 方式 定义 偏 序 。 
12.[M16] 证 明 (29) 是 (28) 的 假设 的 一 个 推论 。 
13.[M21 ] 证 明 不 含有 相 邻 的 字母 对 偶 ca 和 4b 的 多 重 集合 {A'a,B'b,C'c,D'd,FE'*e, 
Ff1 的 排列 个 数 是 
D A+B+E+F\Y/A+B+C+E+F-t C+D+Et+F 
D3 2 )( cpg 
14.[M30] 根据 本 小 节 中 其 它 定义 的 提示 ,定义 一 个 一 般 排 列 x 的 道 x 的 方法 之 一 ,是 把 x 
的 两 行 表示 的 行 交 换 , 然 后 对 这 些 列 做 稳定 排序 ,以 便 把 上 面 的 行 变 为 非 减 次 序 。 例 如 ,如 有 果 a< 
5<c<d, 则 这 个 定义 意味 着 capdadapdad 的 逆 是 acdawdapopodd。 
斌 剖析 这 个 求 逆 操作 的 性 质 ; 例 如 , 它 同 插入 乘积 是 否 有 任何 简单 的 关系 ?我 们 能 计算 使 
x = 二 的 排列 的 数目 吗 ? 
P15.[M25] 证 明 多 重 集 合 
| 7 THN Ta 工 | 
的 排列 ac …a ,其 中 rr<z<…<znynai+z+…+nn=7m 是 一 个 轮换 , 当 且 仅 当 具有 项 后 
iziyT2 ,Xm 和 从 二 到 a, ;+…+w 的 诸 有 向 边 的 有 向 图 恰好 包含 一 条 有 装 回路 。 在 后 一 种 情 
况 下 ,以 轮换 形式 表示 排列 的 方式 个 数 是 有 向 回路 的 长 度 。 例 如 ,对 应 
(2 
acpoacaapdrc 


D0 

d C 

而 把 这 个 排列 表示 成 一 个 轮换 的 两 种 方式 是 (bad dcacabc) 和 (caddcacbab)。 
16.[M35] 在 排列 一 个 集合 的 特殊 情况 下 ,我 们 在 上 节 建 立 了 排列 的 反 序 的 生成 肾 数 , 即 等 


式 5.1.1-(8)。 试 证 明 ,一 般 情 况 下 ,如 果 排 列 一 个 多 重 集合 , 则 fa ziyzaz2， | 的 反 序 的 生成 
卫 数 是 “>z- 多 项 式 系数 ” 


的 有 问 图 是 


.0 。 
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Ti 1 Mm 
ns 
| = 其 中 m!. = |[ (+z+… + x !) 
N17n2 2,""" k=1 


ni!zn2 le 


[ 同 (3) 和 等 式 1.2.6-(40) 中 的 z- 二 项 式 系数 的 定义 作 比 较 。] 
17.[M24 」 利用 在 习题 16 中 建立 的 生成 函数 , 求 出 在 一 个 给 定 的 多 重 集合 的 随机 排列 中 , 反 


序 个 数 的 平均 值 和 标准 离 差 。 
18.[M30 ](P.A.MacMahon) 上 一 小 节 定 义 了 一 个 排列 el a，… a, 的 指数 ;而 且 证 明了 一 


个 集合 的 指数 为 的 排列 个 数 , 等 同 于 有 个 反 序 的 排列 个 数 。 对 于 一 个 给 定 的 多 重 集合 的 排 
列 ,同样 的 结果 成 立 否 ? 
19.,LHM28 ] 定义 一 个 排列 x 的 Ma5bius 函数 w(r) 如 下 :如 果 xz 含有 重复 的 元 素 , 则 w(r ) 为 
零 ;否则 ,如果 是 上 个 素 因 子 的 乘积 , 则 ww(r) 为 (-1)[ 同 通常 的 Mebius 函数 的 定义 , 即 习题 
4.5.2-10 进行 比较 ]。 
a) 证 明 如 果 x 关 ¢, 则 对 所 有 为 7 的 左 因子 的 排列 4 求 和 ( 即 对 某 个 o, Tp=7) ,我 们 有 
> p(X)=0 


b) 给 定 zi< ze< 工 ， 和 x =x x ZX， ,其 中 ,对 于 1 人 kn ,1 二 如 夺 m ,证 明 
AT) = 三 (一 1) i 2,) 
其 中 ,ei 2 i )=sign _1_ (i ~ 1,)o 
20.[HM33 ](D. Foata) 设 (ay ) 是 任意 实数 矩阵 。 在 习题 19b) 的 记号 下 ,定义 v(x) = aj) … 
Qi ,其 中 Li 的 两 行 记号 为 


这 个 盟 数 在 计算 一 个 多 重 集合 排列 的 生成 函数 时 是 有 用 的 ,因为 对 于 多 重 集合 


{ni ”X19 7 Z| 


的 所 有 排列 x 求 和 的 》)v(x), 将 是 满足 某 些 限制 的 排列 个 数 的 生成 函数 。 例 如 ,如 果 对 于 i = j， 
取 oa = z, 以 及 对 于 i 关 j, 取 a = 1, 则 >) v(x) 是 对 于 “不 动 点 "(上 面 和 下 面 元 素 相同 的 列 ) 个 
数 的 生成 函数 ,为 了 同时 研究 所 有 多 重 集合 的 >, >(r) ,我 们 考虑 函数 
(+ = > mx) 
它 对 于 包含 元 素 x| ,… ,x,, 的 多 重 集合 的 所 有 排列 集合 {x1,… ,x,} “中 的 x 求 和 。 
在 G 的 这 个 公式 中 ,我 们 把 x 处 理 作 诸 z 的 乘积 。 例 如 , 当 m=2 时 ,有 
人 三 于 十 Xiv(X1) 十 Xv (XZ,) 十 ZI1Z1V(CZ1IZI) 十 ZI1Z27(ZIZ2 1) 十 
Z2ziCZ2Zz1) + Z2z27(Z2Z2) 十 … = 
1 + ziail + Xa + Xiatl + x1x2a11422 十 


2 2 ns 
TIT2Q21Q12 + XIQ2I> + 


.30 。 
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于 是 G 中 zz 的 系数 就 是 对 于 | n4* zi ,mx 的 所 有 排列 x 求 和 的 v(x)。 不 难看 
出 ,这 个 系数 也 是 在 表达 式 
(anzi+ + armrm) "(AT +t + aamTm) 2 (anTi +t + ammTm) 
中 zz 的 系数 。 
这 个 习题 的 目的 是 要 证 明 P.A.MacMahon 在 他 的 Combinatory Analysis 1 (1915) 第 3 节 中 所 
谓 的 “主要 定理 ”, 即 公式 


G = 1/D 
1 一 Ui1X1 412X2 四 dimtm 
一 C21 之 1 1 — Q22z2 “°° 一 dmTm 
D = det . . . 
Qnri Cn2 之 2 1 Gm dn 


例如 ,如 果 对 于 所 有 的 i 和 j,a;=1, 则 这 个 公式 给 出 
G= 11/1 (rt+ zx + + rx,)) 

而 x?1… rm 的 系数 正好 像 它 应 该 的 那样 , 即 (mi + … +n,)!/n!ln,!o 

为 了 证 明 主 要 定理 ,证 明 

a)v(xTo)= v(x)v(p); 

b) 在 习题 19 的 记号 下 ,D= xv(x)v(7), 该 式 对 

{zis ra} 

中 的 所 有 排列 x 进行 求 和 ; 

c) 因 此 D'G=1。 

21.[ M21 ] 给 定 1,…,n, 和 和 4d 之 0, 对 于 1 二 j<n=n1+… 二 nn，, 多 重 集 合 in1 :1 ,nn,* 
m| 中 有 多 少 排 列 al ,a,,… ,a, 满足 aj ;| 之 a -dd? 

22.[ M30] 设 Pkz4…zop) 表 示 多 重 集合 ja zi ,nn zol 的 所 有 可 能 排列 的 集合 ,并 设 
P(zgozT zz) 是 POziozn zoom) 的 子 集 , 其 中 头 ao 个 元 素 夫 zo。 

a) 给 定 满足 1 过: < m 的 一 个 数 :, 试 求 对 于 某 个 有 之 0,P(17 mo) 和 分 别 属 于 Po(0 1 
和 5) 和 Po(04(t +1)"%+1… mm ) 的 所 有 有 序 的 排列 侦 的 集合 之 间 的 一 一 对 应 。|[ 提 示 : 对 于 每 个 x 
= Qlan€EP(lf mw), 令 1 是 通过 以 0 来 代替 上 +1,…， 和 删除 最 后 的 mr1T…+mn 个 
位 置 中 的 0 所 得 到 的 排列 ;类 似 地 , 令 >(r) 是 以 0 来 代替 1, …, 上 并 且 删 除 头 zi1+…+7 个 位 置 
中 的 所 有 0 所 得 到 的 排列 。j 

b) 证 明 其 两 行 形式 有 户 个 列 ? 和 9 个 列 的 P(0”%1"…m") 的 排列 的 个 数 为 

| 已 (32 和) | | PO ony 
polOl em )| 

0) 设 w! ,wn ;XZ1，"… ,zm 是 单位 加 上 的 复数 ,把 一 个 排列 xEP(C1 wo) 的 权 w(x) 定 
义 为 在 两 行 形式 下 它 的 列 的 权 的 乘积 ,其 中 六 的 权 当 ) 和 两 者 都 1 或 >t 时 为 w/wi ,否则 为 
zj/ xx。 试 证 明 对 所 有 的 x€E P(t…m"m),w(X) 之 和 为 : 


.we 
4 过 0 > 6 (区 
其 中 n< ,是 21+…+70 > 是 1+…+7w 而且 内 部 的 求 和 是 对 于 使 得 p<,= p>,= 上 的 所 有 
。 31 


人 ) | 
n} 





2 


S kl (ne, — k)i(n、,— k)! 


nil*n,,! 
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(站 ,pm) 进 行 的 。 

23.[ M23 ] 一 股 脱 氧 核糖 核酸 (DNA) 可 以 想像 为 在 一 个 4 个 字母 的 字母 表 上 的 一 个 字 。 假 
设 我 们 复制 一 股 脱氧 核糖 核酸 并 且 把 它 完 全 分 裂 成 单字 母 基 , 然 后 再 随机 地 重新 组 合 它们 。 如 
条 把 得 到 的 这 股 放 在 原来 一 股 之 后 。 试 证 它们 不 同 的 位 置 个 数 相 对 奇数 来 说 更 有 可 能 是 偶数 
[提示 :应 用 上 一 道 习 题 ]。 

24.[27] 考虑 在 两 个 未 排序 的 字母 偶 之 间 可 能 成 立 的 任何 关系 尺 ; 如 果 和 w,x}R1y,z|, 我 
们 就 说 iw,xzj| 保 持 iy,z| ,否则 就 说 |w,x| 移 动 |y,z|。 


假定 包 关 x 和 y 和 天 > 按照 对 偶 {w,z}i 保 持 还 是 移动 对 偶 jy, zl ,对 于 R , 转 置 ， 的 操作 为 
以 ，- 或 。, 来 取代 ，- 


y xz? 


对 于 R 来 说 ,对 一 个 两 行 数组 的 的 排序 操作 为 重复 地 求 最 大 的 六 ,并 且 若 zj > 坟 + 
1 1 


则 转 置 列 ;} 和 j +1, 直到 最 终 有 x 三 … 三 zx 为止 (我 们 不 要 求 wy 是 zz 的 一 个 排列 )。 


X11 . , 
给 定 | , 试 证 明 ,对 于 每 个 rE jz 9 ， 工 | ,存在 惟一 的 yE | yl ”yi ,使 得 对 
y1 Yn 
XI be A 
于 某 个 3 sort | J=sor( 2 ): 
V1 VY» y y2 Vn 


YOU Top 


b) 令 ( ]@[ “表示 相对 于 R 对 | ”二 | 进行 排序 的 结果 。 例如 ， 
oe yy i 


如 果 R 总 是 为 真 , 则 电 只 不 过 是 连接 ;如 果 R 总 为 假 , 则 是 交 插 乘积 T。 如 果 我 们 令 (11) 表 示 
《x2 Zrz1) 而 不 是 (xiz2… x ) 来 重新 定义 轮换 符号 , 则 通过 证 明 一 个 多 重 集合 M 的 每 一 个 排 
列 ,有 满足 (16) 的 形 如 

乞 一 (zll 机 Zln yy1 ) ®((zr2 轩 Za Y2) ® “D(z Tn Ye ) ) 
的 惟一 表示 ,可 以 得 出 定理 A。 例 如 ,假设 iw,x1Riy,zi 意 味 着 w,z,y 和 x 都 不 同 , 则 类 似 于 
(17) 的 (12) 的 因子 分 解 为 


(ddbcea) Bl(cbba) Becadb) Bdb) Cd)))) 
(操作 @ 不 总 是 遵从 结合 律 ;在 广义 的 因子 分 解 中 的 括 弧 应 从 右 至 左 地 骨 套 。) 


*5.1.3 有 路段 


在 第 3 章 中 ,我 们 分 析 了 排列 中 上 运行 的 长 度 , 作 为 测试 一 个 序列 的 随机 性 的 
一 项 方法 。 如 果 在 一 个 排列 al a，… ay 的 两 端 各 放 一 根 垂 直 的 线段 ,而且 每 当 oa 
>ai+i 时 ,也 在 a 与 ci 之 间 放 一 根 直 线 , 则 路 段 (runs) 就 是 诸 对 线 之 间 的 区 段 
(segments)。 例 如 ,排列 

1337116891412| 
有 4 个 路 段 。 在 3.3.2G 小 节 中 建立 的 理论 ,确定 了 在 {1,2,… ,nj 的 一 个 随机 排列 
中 ,长度 为 & 的 路 段 的 平均 个 数 , 以 及 长 度 为 ; 和 & 的 路 段 个 数 的 协 方差 。 路 段 在 
排序 算法 的 研究 中 是 重要 的 ,因为 它们 表示 数据 已 排序 的 诸 段 ,所 以 现在 将 再 次 人 研 
究 路 段 这 个 课题 。 
让 我 们 使 用 记号 
,32 ， 


“5.1 排列 的 组 合 性 质 


4 (1) 
来 代表 |1,2,…,n| 的 排列 中 , 恰 有 个 “递减 "a; > w ,1, 因 而 恰 有 +1 个 递增 路 自 
的 个 数 。 数 《，》> 在 许多 场合 中 出 现 , 它 们 通常 被 称 做 欧 拉 , 因 为 欧 拉 在 很 多 年 之 前 


的 一 篇 技术 文章 [Comment.Acad.Sci. Imp. Petrop. 8(1736) ,147 一 1$8, $ 13] 中 提 到 
了 它们 ,之 后 叉 在 他 的 名 车 [lnstitutiones Calculi Differentialis (St. Petersburg:1755), 
485 一 487| 中 讨论 了 它们 。 注 意 ,不 要 把 它们 与 习题 5.1.4-23 中 讨论 的 “ 欧 拉 (Eu- 


ler) 数 "E, 相 混淆 。《 ，》 中 的 尖 括 号 提醒 我 们 在 一 个 递 降 定义 中 的 “> "符号 当然 


《”》 也 是 有 个 “递增 ” 的 w < aisi 的 排列 个 数 。 
k 


通过 把 元 素 n 插入 到 所 有 可 能 的 位 置 上 ,我 们 可 以 使 用 对 {1,…,n 一 1} 的 任何 
给 定 的 排列 来 形成 ”个 新 的 排列 。 如 果 原 来 的 排列 有 & 个 递 降 则 恰 有 + 1 个 新 的 
排列 将 有 & 个 递 降 ; 剩 下 的 -1 一 个 将 有 k+1, 因 为 除非 把 元 素 n 放 在 一 个 现存 
路 段 的 末尾 ,否则 我 们 就 会 增加 递 降 的 数目 。 例 如 ,从 3 1 245 形成 的 6 个 排列 是 
563122 BOT 6 24 
312645, 312465; 3124556; 
除 第 二 个 和 最 后 一 个 外 ,它们 都 有 两 个 递 降 ,而 不 是 一 个 ,因此 有 递 推 关系 


《= (+DC 了》+(n- 人 )《C” -1》, 整数 n> 0, 整 数 (2) 
按 约定 , 置 


0 
a = 0 (3) 


指出 , 空 排列 没有 递 降 。 读 者 可 以 发 现 ,把 (2) 同 在 等 式 1.2.6 一 (46) 中 的 斯 特 林 数 
的 递 推 关 系 作 比较 是 有 趣 的 , 表 1 列 出 了 对 于 小 的 和 的 欧 拉 数 。 
表 1 欧 拉 数 











-~ OO Wn RW LD -= OO 
一 OO OO OO OO OO OO oO 
OO OO OO OO OO OO OO oO 
OO OO OO OO OO Oo SD 
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Go 《AD 《27 C62 《77 








247 4293 15619 15619 4293 
14608 88234 156190 88234 


在 表 1 中 可 以 观察 到 若干 模式 。 由 定义 ,我 们 有 





C++ > (4) 
40>= 1 (5) 
《< 1>》= 1， 4 ,>》= 0, 对 于 nn 之 1 (6) 
由 一 般 的 对 称 规则 ,等 式 (6) 由 等 式 (5) 得 出 ,这 是 因为 由 一 般 的 对 称 性 规则 ， 
C2》=《,，_ 1 对 于 >1 (7) 


这 由 下 列 事实 得 出 , 即 有 & 个 递 降 的 每 个 非 空 的 排列 al az… a, 有 ?2 -1- 个 递 
增 。 欧 拉 数 另 一 个 重要 的 性 质 是 公式 


DO, -ww n>0 8) 

它 由 中 国 的 数学 家 Li Shan-Lan( 李 善 兰 ) 发 现 并 发 表 于 1867 年 [参见].-C. Mart- 

zloff ,A History of Chinese Mathematics (Berlin:Springer,1997) ,346 一 348; 对 于 ?2 委 

5 的 特殊 情况 ,已 经 由 日 本 的 Yoshisuke Matsunaga( 松 永 良 缠 ) 所 知晓 ,他 共 于 1744 

年 ]。 李 善 兰 的 恒等式 是 根据 排序 的 性 质 推出 的 :考虑 使 得 1I 委 ai 科 和 的 m"” 个 序列 
al a ae 我 们 可 以 以 稳定 的 方式 把 任何 这 样 的 序列 排 成 非 递 减 的 次 序 ,得 到 

Qi < Qi 委 … 私 Qi (9) 

其 中 ii-… i 是 |1,2,…, | 的 一 个 惟一 确定 的 排列 ,使 得 a = ai ,意味 着 二 < 

ij+1; 换 言 之 ,i > 吉 +1 意 味 着 a; < a;,。 如 果 排列 2 22… 和 有 个 路 段 , 则 将 证 明 


对 应 的 序列 a1 a2… a 的 个 数 是 [””” “ |。 如果 我 们 以 二- 来 代替 & 并 且 使 


用 (7) ,就 将 证 明 (8) ,因为 《，> 个 排列 有 wn -个 路 段 。 


例如 ,如 果 n=9 且 i2… i,=357168942, 则 我 们 要 计算 使 得 
la; 三 as 和 ay<alao 和 Ragao<a<am (10) 
的 序列 a a,… a, 的 个 数 ,是 使 得 
lbo<b ,<b <b<bs< be<b1< bs< bom+t+s5 
。 34 。 
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的 序列 616，… be 的 个 数 , 因 为 我 们 能 令 bj = a3,b;=as+1,b63=ay+2,64=alt+t 
2,bs= a6 +3, 等 等 。 选 择 诸 5 的 方式 的 个 数 , 就 是 由 mx +5 件 事物 中 选择 9 件 的 方 
式 数 , 妈 Wi ,类 似 的 证 明 对 于 一 般 的 入 ,以 及 对 于 任何 具有 个 路 段 的 任 
何 排列 i i,… i, 也 有 效 。 
由 于 (8) 的 两 边 都 是 mm 的 多 项 式 , 故 可 以 用 任何 实数 zx 来 代 兰 mx ,从 而 得 到 用 
相继 的 二 项 式 系数 表示 乘 方 的 一 种 有 趣 方式 : 
n 文 n z+l1 n T+n-l 
2" =) ( +") n J n )， 2 之 1 (11) 
例如 ， 
并 克 十 荆 之 十 2 
3 
这 是 欧 拉 数 的 键 码 性 质 ,这 种 性 质 使 得 欧 拉 数 在 离散 数学 的 研究 中 很 有 用 。 
在 (11) 中 置 x =1, 就 再 次 证 明了 


("1 
因为 二 项 式 系数 除了 最 后 一 项 外 都 消失 了 。 置 x =2, 得 到 
《 ,2=C《1)=2"-n-l, n 宇 1 (12) 


置 z=3,4,… 即 知 关系 (11) 完 全 确定 了 数 《 ，》, 并 且 导 出 了 最 初 由 欧 拉 给 出 的 一 





个 公式 : 
nN » n/n+l (2 二 1 四 rainfnt+ ly 
《>》= (+D) 如 | ) J+ (4 1)"| ， + j= 
-177 +t)", ) 之 0 之 0 (13) 
j=0 J 
现在 研究 路 段 的 生成 函数 。 如 果 置 
k 

2) = HC (14) 


则 x 的 系数 是 11,2,…,n| 的 一 个 随机 排列 恰 有 个 路 段 的 概率 。 由 于 个 路 自 
的 可 能 性 恰巧 等 同 于 w+ 1- 个 , 故 路 段 的 平均 数 必须 是 (n+1), 因 此 g;(1) = 


(n+1)。 习 题 2(b) 证 明 , 对 于 g,(z) 在 点 z=1 的 各 次 导数 ,有 一 个 简单 的 公式 
7 十 于 


gw” (1) = 寺 ] 一 放 人) 7 之 77 (15) 
因此 特别 地 ,对 于 n 之 2, 方 差 g”,(1)+ g,(1) 一 g,(1)* 成 为 (n +1)/12, 表 示 对 于 
。 394 。 
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均值 的 稍微 稳定 的 分 布 (我 们 在 等 式 3.3.2-(18) 中 发 现 过 同样 的 量 , 在 那里 它 被 称 
做 协 方 差 (R 1,R'1))。 由 于 gz) 是 一 个 多 项 式 ,我 们 可 以 使 用 公式 (15) 推 导出 泰 
勒 级 数 展开 式 





| 


了 _ nkzr,1 
gn(z) = 1)” RL + 









































1 k+l1 nC— 2 十 二 
下 2 《2 (16) 
此 公式 的 第 二 式 从 第 一 式 得 出 ,因为 由 对 称 性 条 件 (7) 
gn(Z) = wg 1 之 1 (17) 
斯 特 林 数 递 归 式 
7 十 荆 = (k+l1) n 上 n 
k+l k+l 4 
给 出 了 两 个 稍微 更 简单 些 的 表示 , 当 7 之 1 时 ， 
gn( ZT) = 二 Dz(z 一 1)"” 馆 , = 
LD 一 之)” <k! (18) 
因此 ,超生 成 函数 
之 ) 工 ” /NN zr” 
g(x,7) = 中 n | (19) 
等 于 
z 1)z)" lnlkgl /ee 714 1— >) 
k,n>0 所 一 这 k nl > (: z—1 让 (20) 








这 是 欧 拉 讨论 的 男 一 个 关系 。 

欧 拉 数 进 一 步 的 性 质 可 以 在 L. Carlitz 的 综述 性 论文 [Math. Magazine 33 
(1959 ) ,247 一 260 ] 中 找到 ;也 可 见 J. Riordan 的 Introduction to Combinatorial 
Analysis (New York:Wilevy,195$8) ,38 一 39,214 一 219,234 一 237;D. Foata 和 M. 了 . 
Schiitzenberger 的 Lecture Notes in Math. 138〈Berlin :Springer,1970 ) 。 

现在 考虑 路 段 的 长 度 ;平均 说 来 ,一 个 路 段 的 长 度 等 于 多 少 ? 在 3.3.2 小 市 ,已 
经 研究 了 给 定 长 度 路 段 的 预期 数目 ;路 段 的 平均 长 度 近似 为 2, 同 长 度 为 ”的 一 个 
随机 排列 中 大 约 有 方 (” + 1) 个 路 段 这 一 事实 相 一 致 。 为 了 应 用 于 排序 算法 , 换 一 
个 角度 来 考虑 是 有 用 的 ;对 于 &=1,2,…, 考 虑 在 排列 中 从 左 到 右 第 & 个 路 段 的 长 
度 。 

例如 ,一 个 随机 排列 a1a,…a, 的 头 一 个 (最 左边 的 ) 路 段 有 多 长 ? 它 的 长 度 总 
是 宇 1 ,而 且 恰 有 一 半 的 次 数 , 它 的 长 度 宇 2 ( 即 当 ci< ay 时)。 恰 有 1/6 的 次 数 , 它 

.36 ， 
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的 长 度 宇 3( 当 a1<as<a; 时 )。 而且 一 般 说 来 ,对 于 1 三 mn, 它 的 长 度 之 m 的 
概率 是 av =1/m!。 因 此 , 它 的 长 度 恰恰 等 于 m 的 概率 是 
pn = gm — qm+1 = lim!-1/(m+1)!, 对 于 1l<m<n 
pn = l/n! (21) 
因此 头 一 个 路 段 的 平均 长 度 为 
pi1+2p2+ + np» = (gi1— gq2) +2(g2 ~ q3) 十 和 十 


1 1 1 
(n—-1)(g1— qr) +ngrn = grt qt +qr = +t + 《22) 


如 果 今 n 一 0%, 则 极限 为 e 一 1=1.71828…, 而 且 对 于 有 限 的 ,这 个 值 为 e 一 1 一 6,， 
其 中 6, 十 分 小 


1 
(n+t+1)! 


因此 ,为 了 实用 ,不 妨 研究 在 不 同 数 的 随机 无 穷 序 列 





0, = 





l 1 ，,. 
lt rt ron ta3) 


Cl 22，043， 


中 的 路 段 ; 这 里 我 们 所 说 的 “随机 ”, 是 指 在 这 个 序列 中 , 头 2” 个 元 素 的 24! 种 相对 次 
序 的 每 一 种 都 是 同等 可 能 的 。 因 此 ,在 一 个 随机 无 穷 序 列 中 头 一 个 路 段 的 平均 长 度 
为 e 一 1。 

只 要 稍微 地 加 强 对 头 一 个 路 段 的 分 析 ,就 能 确认 在 一 个 随机 序列 中 第 & 个 路 段 
的 平均 长 度 。 设 ou 是 头 & 个 路 段 的 总 长 度 宇 m 的 概率 , 则 gj 是 1/m! 乘 以 路 段 数 
委 & 的 和 1,2,…,m| 的 排列 数 


go = (CE Dre) (23) 
涉 上 个 路 段 总 长 度 是 m 的 概率 为 qi, 一 qecm+1)。 因 此 ,如 果 Li 表示 第 个 路 段 的 
平均 长 度 , 则 求 得 
Li1+…+T1= 头 & 个 路 段 的 平均 总 长 度 = 
(qi — 942) + 2(g42 — qt) + 3(g43 — qr4) + "** = 
bl + de2 + qr3 十 


减 去 Li+…+ 上 -1 并 利用 (23) 中 的 gq, 的 值 , 即 得 所 求 的 公式 


1 1 1 2 1 3 m 1 
Li = TA, 72712 21 1 
(24) 
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由 于 除 当 =1 外 《 ，”，》=0, 故 L; 可 证 明 是 生成 函数 g(z,1) -1( 见 等 式 (19)) 
中 必 - :的 系数 ,所 以 有 


L(z) = > Le = SS 一 之 (25) 
欧 拉 公 式 (13) 得 到 L; 作为 e 的 一 个 多 项 式 的 表示 
= 2 >)(- 1)*- 机 】 一 = 
m 之 0 7 = kj mm) 


k 


nm * 772 
) 二 + 
m 之 0 k 一 7 7/ ， 


2- De ) = 


nm! 


J 力 之 0 k 一 7 _ 
DI NDI 
J=0 (k —j)! ‘on j=0 (k 一 了 一 1) n 宕 0 nl! 
(一 工 7 / .&-J) 一 | 
k ] 26 
> (k 一 /rr i € ( ) 
这 个 L; 的 公式 首先 由 B.J.Gassner 得 到 [ 见 CACM 10 (1967),89 一 93]。 特 别 是 ,有 
L|=e—l1 x 1.71828… 
L,=e -2e 2 1.95249… 


L;=6- 38+ Fe 2 1.99579.… 
所 以 预期 第 二 个 路 段 较 头 一 个 长 ,而 且 平均 地 说 ,第 三 个 还 将 更 长 ! 乍 一 看 ,这 似乎 
邻 人 惊奇 ,但 稍 经 思考 即 可 知 ,由 于 第 二 个 路 段 的 头 一 个 元 素 趋 于 变 小 ( 它 引 起 第 一 
个 路 段 终 止 ) , 故 第 二 个 路 段 就 有 一 个 较 好 的 机 会 变 得 更 长 些 。 第 三 个 路 段 的 头 一 
个 元 素 甚 至 比 第 二 个 的 更 小 。 

在 替代 -选择 排序 理论 中 , 数 L; 有 其 重要 性 (5.4.1 小 市 ), 所 以 详细 研究 它们 的 
值 是 有 意义 的 。 表 2 列 出 了 L, 的 头 18 个 值 到 15 位 十 进 数 。 在 上 段 中 的 讨论 可 能 
使 我 们 首先 猜测 Li; ,1 >>Li, 但 是 事实 上 这 些 值 是 向 后 和 向 前 摆动 的 。 注 意 ,L; 迅 
速 地 趋 于 极限 值 2; 看 看 超越 数 e 的 这 些 单一 多 项 式 多 么 迅速 地 收敛 到 有 理 数 2 是 
很 有 意思 的 ! 从 数值 分 析 的 观点 来 看 ,多 项 式 (26) 也 是 颇 为 有 趣 的 ,因为 它们 提供 了 
当 接 近 相 等 的 数 相 减 时 有 效 位 数 丢 失 的 一 个 精采 的 例子 ;利用 19 位 浮 点 算术 ， 
Gassner 得 到 不 正确 的 结论 Li >2, 而 John W. Wrench,Jr. 注意 到 ,用 42 位 浮 点 算 
术 来 计算 Lg 时 仅仅 正确 到 29 位 有 效 数 字 。 
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表 2 第 个 路 段 的 平均 长 度 





k L, k L, 

l 1.71828 18284 59045 + 10 2.00000 00012 05997+ 
2 1.95249 24420 12560 - 11 2.00000 00001 93672 + 
3 1.99579 13690 84285 - 12 1.99999 99999 99909 + 
4 2.00003 88504 76806 - 13 1.99999 99999 97022 - 
5 2.00005 75785 89716 + 14 1.99999 99999 99719+ 
6 2.00000 50727 55710 - 15 2.00000 00000 00019 + 
7 1.99999 96401 44022 + 16 2.00000 00000 00006+ 
8 1.99999 98889 04744 + 17 2.00000 00000 00000 + 
9 1.99999 99948 43434 - 18 2.00000 00000 00000 - 





L; 的 渐 近 性 质 可 用 复 变数 理论 的 简单 原理 来 确定 。 仅 当 e = z, 即 如 果 我 们 
写 z> 二 x 二 iy, 当 
er lcosy=x 和 er siny=y (27) 
时 ,(25) 的 分 母 为 0。 图 3 所 示 为 这 两 个 方程 的 蕉 印 图 。 我 们 注意 到 ,它们 在 zx = 
Zo， 之 1;Z1,Z2,zZ2，""* 人 处 相交 ,这 里 ,zo=1， 
z! = (3.08884 30156 13044 —) + (7.46148 92856 $4255 —)i (28) 
而 且 虚 部 R(z 41) 对 于 很 大 的 & 粗略 地 等 于 S(z)+2x。 由 于 
lim | 二](z — “4) =—1, 对 于 & >0 


Zz 
£ 


晶 对 有 =0, 此 极限 为 -2, 故 函数 
R,,(z)= L(z)+ 








2 2 之 1 + 
之 一 Z0 > 一 zl > 一 ZI -x 
证 之 ， zw 
之 一 ZY 之 一 zz 一 过 
在 |z|<|z,,+1| 的 复 平 面 中 没有 奇异 点 。 因 此 R,, (zxz) 有 一 个 窜 级 数 展开 式 2 ,0px*， 
当 |z|< 之 |zjjy1| 时 , 它 绝对 收敛 ;由 此 得 出 当 习 时 ,osM* 一 0, 其 中 M= |z,11| 一 
co。L 上 (z) 的 系数 是 
[二 1 一 1 一 7 1 一 J +t ] 一 EE 
的 系数 , 即 
L,; = 2+2ri”cos nO + 2r3”"cos nO + +27,,"cos nb,, + Or ii) (29) 
若 令 


+ R,(z) 


Zz, = re (30) 
这 说 明了 工 , 的 渐 近 性 质 。 我 们 有 
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ri = 8.07556 64528 89526 -， 0 = 1.17830 39784 74668 + 

r2 = 14.35456 68997 62106 -， 9, = 1.31268 53883 87636 + 

rs = 20.62073 15381 80628 -， 9; = 1.37427 90757 91688 一 

r4 = 20.88793 29424 54546 -， 04 = 1.41049 72786 51865 — 
所 以 对 于 L, -2 的 主要 贡献 乃 归 功 于 mr 和 91, 而 且 (29) 的 收敛 是 十 分 迅速 的 。 进 
一 步 的 分 析 [W.W .Hooker,CACM 12 (1969) ,411 一 413] 证 明 , 当 mW 时, R, (zz) 


六 一 z; 因 此 当 n>1 时 ,级 数 23),sor, ”cos nO 实际 上 收 人 证 于 上 ,。 


(31) 





和 


et | sin yy 一 











图 3 er 1=zx 的 根 


可 以 对 概率 进行 更 仔细 的 考察 ,以 确定 对 于 第 个 路 段 长 度 和 对 头 有 个 路 段 的 
总 长 度 的 整个 概率 分 布 (见习 题 9,10,11)。 和 数 工 | + 上 ,+… + 工 , 结果 是 渐 近 于 


2 - 读 + O(8-“)。 


让 我 们 来 考虑 , 当 在 排列 中 允许 出 现 相 等 的 元 素 时 路 段 的 性 质 , 以 此 来 结束 本 
。 4O : 
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小 节 。19 世纪 著名 的 美国 天 文学 家 Simon Newcomb 对 做 一 种 与 这 个 问题 有 关 的 单 
人 游戏 很 感 兴 趣 。 他 把 一 副 扑 克 牌 一 张 一 张 地 放 在 果 上 ,只 要 牌 的 面值 是 以 非 减 次 
序 出 现 的 ,他 束 把 它们 堆 成 一 堆 ; 但 每 当 待 堆 放 的 下 一 张 牌 的 面值 小 于 前 者 时 ,他 束 
开始 一 个 新 的 堆 。 他 想 要 知道 ,在 整 副 牌 以 这 种 方式 分 发 完毕 之 后 ,形成 给 定 堆 数 
的 概率 。 

因此 ,Simon Newcomb 的 问题 就 是 , 求 在 一 个 多 重 集 合 的 随机 排列 中 ,路段 的 概 
率 分 布 问 题 。 尽 管 已 经 看 过 怎样 来 解决 当 所 有 的 牌 都 有 不 同 的 面值 时 的 特殊 情况 ， 
但 一 般 的 回答 是 比较 复杂 的 (见习 题 12)。 这 里 ,我 们 将 满足 于 推导 出 现 于 这 个 游 
戏 中 的 平均 堆 数 。 

自 先 假定 有 m 种 不 同类 型 的 牌 ,每 种 类 型 恰 出 现 p 次 。 例 如 ,通常 的 桥牌 ,如 
果 不 考 虑 花色 时 ,有 m= 13 和 p=4。P.A.MacMahon 发 现 了 应 用 于 这 种 情况 的 值 
得 注意 的 对 称 性 [Combinatory Analysis 1 (Cambridge,191S) ,212 一 213]1: 有 有 &+1 个 
路 段 的 排列 个 数 等 同 于 有 mp 一 pp 一 +1 个 路 段 的 排列 个 数 。 当 p=1 时 ,这 个 关 
系 是 等 式 (7) ,但 对 于 p>1 时 , 它 是 十 分 令 人 惊奇 的 。 

通过 在 具有 &+1l 个 路 段 的 每 个 排列 , 同 具 有 zz - 户 -+1 个 路 段 的 另 一 个 
排列 之 则 建立 一 一 对 应 ,就 能 够 证 明 这 对 称 性 。 在 往 下 阅读 之 前 ,鼓励 读者 亲自 动 
手 试 一 试 , 来 发 现 这 一 对 应 。 

显然 ,没有 很 简单 的 对 应 ;MacMahon 的 证 明 是 以 生成 图 数 ,而 不 是 以 一 种 组 合 
构造 为 基础 的 。 但 Foata 的 对 应 (定理 5.1.2B) 提 供 了 一 个 有 用 的 简化 ,因为 它 告诉 
我 们 ,在 具有 +1 个 路 段 的 多 重 集合 排列 和 其 两 行 表示 法 中 ,对 于 xz<y, 恰 含有 
个 列 y 的 排列 之 间 , 有 一 一 对 应 。 

假设 给 定 的 多 重 集 合 是 {p'1,p'2,…,p'm| ,考察 其 两 行 表示 法 为 


1 se 1 2 so 2 soos mm ss 7 
| (32) 
a 
的 排列 ,可 以 把 这 个 排列 和 同一 多 重 集合 的 另 一 个 排列 结合 起 来 
1 sos 1 2 ss 2 ou. 7 ees 7 
| 1: < (33) 


其 中 z = 和 +1->。 如 果 (32) 含 有 形 如 > 上 且 xz<y 的 & 个 列 , 则 (33) 含 有 (mm 一 1)p 
-下 个 这 样 的 列 ;因为 仅仅 需要 考虑 y>>1 的 情况 ,而 且 z< y 等 价 于 x 宇 m+2 一 
y。 现 在 (32) 对 应 于 具有 有 +1 个 路 段 的 一 个 排列 ,而 (33) 对 应 于 具有 mp 一 p 一 + 
1 个 路 段 的 一 个 排列 ,而 且 由 于 把 (32) 变 为 (33) 的 变换 是 可 逆 的 它 把 (33) 变 回 
(32) ,因此 MacMahon 的 对 称 性 条 件 已 经 建立 。 关 于 这 个 构造 的 一 个 例子 ,见习 题 
14。 


由 于 对 称 性 ,在 一 个 随机 排列 中 路 段 的 平均 数 必须 是 方 ((&+ 1)+ (mp 一 记 - 





+ 了 1))=1+ 坟 p(m 一 1)。 例 如 ,利用 一 副 标 准 扑克 牌 ,由 Simon Newcomb 的 单 人 
游戏 得 到 的 平均 堆 数 将 是 25( 所 以 它 不 像 是 一 种 有 吸引 力 的 单 人 游戏 )。 
s 4]1 . 
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给 定 任 意 多 重 集合 1z zz zz ,nm' Xml ,其 中 请 xz 是 不 同 的 ,利用 一 个 
相当 简单 的 论证 ,实际 上 可 以 大 体 上 确定 路 段 的 平均 数 。 设 n=nlt+ npt+ 二 ny， 
并 想像 这 个 多 重 集合 的 所 有 排列 ay a,… a 都 已 经 写 下 来 ;我 们 来 考察 ， 对 于 每 个 
固定 的 11 值 1 志 i<n,a; 大 于 a;+1 的 机 会 如 何 。a; > aiyl 的 次 数 恰 是 a; 关 a;+1 的 次 
数 之 半 ;而 且 不 难看 出 ,a; = airi= zx; 恰 有 NNnj(n; 一 1)/n(n 一 1) 次 ,其 中 NN 是 排列 
的 总 数 。 因 此 ,a,= a,,1 恰 有 


zn Tn) tt nn nn -1)) = n(n nt t+ nd,—n) 
次 ,而且 ao; >a;+1i 恰 有 

J 
次 。 因 为 在 每 个 排列 中 有 一 个 路 段 在 a, 处 结束 ,因此 若 对 i 求 和 并 加 上 N, 则 得 到 
在 所 有 NN 个 排列 当中 路 生 的 冯 数 


除 以 N 即 给 出 所 求 的 平均 路 段 数 。 

由 于 在 “顺序 统计 ”的 研究 中 路 段 是 重要 的 ,因此 有 相当 多 的 著作 讨论 它们 , 包 
括 这 里 未 予 考虑 的 若干 其 它 类 型 的 路 段 在 内 。 更 多 相关 信息 ,请 参见 F.N.David 和 
D.E. Barton 所 著 的 书 Combinatorial Chance (London :Griffin,1962) ,第 10 章 ; 以 及 由 
D.E. Barton 与 C.L. Mallows 合 写 的 综述 论文 Annals of Math，Statistics 36 〈19635 ) ， 
236 一 260。 


习 是 


1.[M26] 推导 欧 拉 公式 (13)。 
2.[ M22 ] (a) 推 广 正文 中 用 来 证 明 (8) 的 思想 ,考虑 恰 含 g 个 不 同 元 素 的 那些 序列 aja,…a,， 








以 证 明 
2 
(b) 用 这 一 恒等式 来 证 明 ,对 于 "之 mm， 
DD) ri nl 








3.[HM25] 计算 和 数 2),《 ，》(- 1) 








4.[ M21] 2D(—1) ; k! ( ” “| 的 值 等 于 多 少 ? 


5.[ M201 当 p 是 素数 时 , 求 《 了》mod p 的 值 。 


了 6.[M21] B.C.Dull 先生 注意 到 ,由 等 式 (4) 和 (13) 
. 42 . 
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"DD DPD (Gr 


首先 对 进行 求 和 ,他 发 现 对 于 所 有 的 j>0，>，_、(- TD = 0 ;因此 ,对 于 所 有 的 n 宕 0， 
n!1=0, 他 是 否 正 确 ? 

7.[HM40] 由 (14) 给 出 的 路 段 的 概率 分 布 ,是 否 渐 近 于 正 态 的 (参见 1.2.10-13)? 

8.[ M24 |] (P.A.MacMahon) 证 明 一 个 充分 长 的 排列 ,其 第 一 个 路 段 的 长 度 为 1, 第 二 个 的 长 


度 为 /,,… ,以 及 第 上 个 的 长 度 之 Li 的 概率 ,是 


k 之 0 


lii 1/(Li + /L,)! 1 + /s+ 1)! ""? 1/(ljy + ls+ lat+ + lL)! 
1 1/ 17>! 1/(L, 十 13)! ~“? 1/( 722 十 /3 十 十 L)! 
det| 0 1 1/ la! 本 1/(ls 二 二) 
0 0 人 110 


9.[M30] 设 如 (z)= 》) piwz”, 其 中 ps, 是 在 一 个 随机 (无 穷 ) 序 列 中 头 上 个 路 段 的 总 长 度 
为 m 的 概率 。 试 求 h1(z),h2(z) 以 及 超生 成 函数 h(z,z)= 2 ,hr(z)xt 的 “简单 "表达 式 。 

10.[HM30」] 对 于 大 的 有 , 求 上 题 中 的 分 布 hi(z) 的 均值 和 方差 的 渐 近 特性 。 

11.[M40] 设 HH(z)= >》) Psz”, 其 中 Pi 是 在 一 个 随机 (无 穷 ) 序 列 中 第 & 个 路 段 的 长 度 
为 m 的 概率 。 试 借助 熟悉 的 函数 来 表达 Hi(z) ,H(z) 以 及 超生 成 函数 H(z,z)= 2) Hi(z)x*。 

12.[ M33 ] (P.A.MocMahon) 通 过 证 明 恰 有 个 路 段 的 jn '1,ns'2,… ,na* m1 的 排列 数 是 


PN 


nl no n 
其 中 ,n=n1+n2+… 十 n,, 把 等 式 (13) 推 三 到 一 个 多 重 集合 的 排列 上 。 
13.[05] 如果 Simon Newcomb 的 单 人 游戏 用 一 副 标 准 桥牌 来 进行 ,忽略 面值 ,但 令 梅 花 < 方 
片 < 红 桃 < 黑 桃 , 问 平 均 的 堆 数 等 于 多 少 ? 
14.[M18] 排列 3111231423342244 有 5 个 路 段 ; 试 按照 正文 关于 MacMahon 对 称 
性 条 件 的 构造 , 求 对 应 的 有 9 个 路 段 的 排列 。 
15. [M21]( 交 错 路 段 ) 19 世纪 有 关 组 合 分 析 的 经 典 著 作 ,都 没有 像 我 们 这 样 考虑 排列 中 的 
路 段 这 个 课题 ,但 有 阁 干 作者 研究 了 交错 地 递增 或 递减 的 路 段 ,因此 53247618 被 认为 有 4 个 
路 段 , 即 


ni 


S32,247,761,18 
(按照 al< oa; 或 al>a 头 一 个 路 跋 将 是 递增 的 或 递减 的 ;于 是 ajap…*a, 和 a,…azal 以 及 (7 十 
1 -al)(n+1-- 4s)…(n+1- a,) 都 有 相同 的 交错 路 段 数 )。 当 排列 ”个 元 素 时 ,这 种 类 型 路 自 
的 最 大 个 数 为 n 一 1。 
试 求 在 集合 11,2,…,n| 的 一 个 随机 排列 中 交错 路 段 的 平均 数 [ 提 示 ; 考 虑 (34) 的 证 明 ]。 
16.[ M30] 继续 上 一 题 , 设 和 《 履 是 恰 有 上 个 交错 路 段 的 11,2,…,n| 的 排列 数 。 试 求 一 个 递 扒 


关系 ,借助 它 可 以 计算 一 张 》 代 的 表 ; 并 求生 成 函数 G,(z) = 》 | ?| zjzl 的 对 应 递 推 关系 。 试 


利用 后 一 递 推 关 系 , 来 发 现在 11,2,…,n1 的 一 个 随机 排列 中 ,交错 路 段 个 数 方差 的 一 个 简单 公 
式 。 
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17.[ M25 | 知 每 个 wo 是 0 或 1, 则 在 所 有 2” 个 序列 a1a，…a, 当中 ,其 恰 有 个 路 段 者 ( 即 ， 
出 现 上 -1 次 a;>a;41) 有 多 少 ? 

18.[ M28 ] bj 为 范围 0 委 包 委 2 一 ;中 的 一 个 整数 , 问 : 所 有 n! 个 序列 b,52…6, 当中,(a) 有 多 
少 个 恰好 有 & 个 递 降 ( 即 b>6j41 的 个 出 现 )?(b) 有 多 少 个 恰好 有 个 不 同 的 元 素 ? 

> 19.[M261(J. Riordan) (a) 在 n Xn 的 棋盘 上 可 以 有 多 少 种 方式 ,来 放置 n 个 不 相 拼 ( 即 , 在 

同一 行 或 同一 列 中 没有 两 个 ) 的 车 ,使 得 在 主 对 角 线 的 给 定 一 边 内 恰 有 个? (b) 在 nxn 的 棋盘 
的 主 对 角 线 之 下 放置 个 不 相 拼 的 车 ,可 以 有 多 少 种 方式 ? 

例如 ,图 4 表示 把 8 个 不 相 拼 的 车 放 在 标准 棋盘 上 ,其 中 ,有 3 个 车 放 在 主 对 角 线 下 不 带 阴 影 


的 部 分 ,这 是 15619 种 放置 方式 之 一 ,同样 也 是 把 3 个 不 相 拼 的 车 放 在 一 个 三 角 棋 盘 上 的 1050 种 
方式 之 一 。 


















史册 本 VEY 


图 4 在 一 个 棋盘 上 不 相 拼 的 车 , 且 在 主 对 角 线 之 下 有 上 =3 个 车 


> 20.[ M21 ] 如 果 为 了 以 非 递 降 的 次 序 来 读 完 一 个 排列 的 元 素 , 我 们 必须 从 左 到 右 扫 描 它 
次 , 则 说 这 个 排列 是 要 求 & 次 阅读 的 。 例 如 ,排列 491825367 要求 4 次 阅读 :第 一 次 阅读 时 ,我 
们 得 到 1,2,3; 第 二 次 ,我们 得 到 4,5,6,7; 然 后 8; 然 后 9。 试 求 路 段 和 阅读 之 间 的 联系 。 

21.[ M22 ] 如 果 |1,2,…,n} 的 排列 cy ay …a, 在 习题 20 的 意义 下 ,有 上 个 路 段 并 要 求 ; 次 
阅读 , 则 排列 a,…a, al 将 如 何 ? 

22.[ M26 ](L. Carlitz,D.P. Roselle 与 R.A.Scoville) 试 证 ,如 果 xs 过, 则 不 存在 具有 n+1 一 
”~ 个 路 段 , 且 要 求 ;次 阅读 的 和 ,2,…,n|} 的 排列 ;但 如 果 nn 宇 n+ 1-r 之 ;之 1, rs 之 n, 则 这 样 的 排 
列 就 存在 。 

23.[HM42 ](Walter Weissblum) 在 排列 cy a，…a, 中 ,在 一 个 区 段 停止 单调 前 , 即 在 该 处 放 
置 一 条 竖 线 ,可 得 到 此 排列 的 “长 路 段 ”; 长 路 段 的 递增 或 递减 取决 于 它们 的 头 2 个 元 素 的 次 序 ,所 
以 每 个 长 路 段 的 长 度 ( 可 能 最 后 一 个 除外 ) 都 宇 2。 例 如 ,7 516 213 8 9|1 4 有 4 个 长 路 段 。 试 求 
一 个 无 穷 排 列 的 头 2 个 长 路 段 的 平均 长 度 ,并 证 明 长 路 段 的 极限 长 度 是 


(1 十 co 二)/ (3 一 cot 3 )~ 2.4202 
24.[ M30] 如 同 习 题 5.1.1 一 18 那样 产生 的 序列 中 ,路 段 的 平均 数 (作为 p 的 一 个 欧 数 ) 是 多 少 ? 


25.[M25|] 设 U),…,U，, 是 在 [0,1) 中 独立 的 一 致 随机 数 , 问 |L Ul +… + DU 1= 的 概率 是 多 
少 ? 














26. [ M20] 设 0 为 运算 z 二, 它 以 nn 来 乘 一 个 生成 函数 中 x” 的 系数 。 斌 证明: 反复 应 用 69 到 
. 44 . 
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1/(1 一 z) 上 m 次 的 结果 ,可 以 借助 于 欧 拉 数 来 表达 。 
> 27.[ M21 ] 设 一 个 递增 的 森林 ,其 节点 以 11,2,…,zj 来 标识 ,并 且 父 节点 的 标识 小 于 其 子 节 
点 。 试 证 明 :《 ，》> 是 有 + 1 叶 的 = 个 节点 递增 森林 的 个 数 。 


*S.1.4 图 表 和 对 合 


为 了 完成 对 排列 的 组 合 性 质 的 概述 ,我 们 将 讨论 把 排列 同 整数 阵列 ( 称 为 图 表 ) 
联系 起 来 的 某 些 值得 注意 的 关系 。 杨 氏 (mniyn ,nnm) 形 图 表 ( 其 中 之 ns 之 … 
宇 n,, >0) 是 把 ni + n+… 十 n; 个 不 同 的 整数 排 成 每 行 左 对 齐 的 一 个 阵列 ,其 中 
第 i 行 有 n; 个 元 素 , 行 中 的 项 从 左 到 右 处 于 递增 的 次 序 ,而 且 每 列 的 项 从 上 到 下 也 
是 递增 的 。 例 如 






(1) 





ln 


一 个 杨 氏 (6,4,4,1) 形 图 表 。 这 种 排 法 是 由 Alfred Young 于 1900 年 为 了 研究 排 
列 的 矩阵 表示 ,而 引进 的 一 个 辅助 手段 [参见 Proc. London Math. Soc. (2) 28 
(1928), 255 ~ 292; Bruce E. Sagan, The Symmetric Group (了 Pacific Grove, Calif.: 
Wadsworth & Brooks/Cole,1991)]。 为 了 简便 起 见 , 把 “ 杨 氏 图 表 ” 简 称 为 "图表 ”。 

一 个 对 合 是 这 样 一 种 排列 , 它 是 自己 的 逆 ,例如 ,11,2,3,4} 的 对 合共 有 10 个 
| 国宝 (| [| Ci 
1234 2134 3214 4231 1324 
1234 1234 1234 1234 1 234 
(132 1 2 (2143) (3412) 32 1 
“对 合 ” 这 一 术语 起 源 于 古典 的 几何 问题 ;这 里 考虑 的 是 一 般 意义 下 的 对 合 ,这 是 由 
H. A. Rothe 在 引进 逆 的 概念 的 时 候 ,首先 研究 的 ( 见 5.1.1 小 市 )。 
我 们 同时 讨论 图 表 和 对 合 可 能 显得 有 点 奇怪 ,但 是 在 这 两 个 表面 上 无 关 的 概念 
之 间 ,实际 上 有 着 非 同 寻常 的 联系 :11 ,2,…，, 刀 的 对 合 的 个 数 与 由 元 闵 11 ,2,…， 
"A En 由 11,2,3,41 恰 能 形成 10 下 即 


a 
RE 


(2) 











(3) 





全 | 有 | 一 
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分 别 对 应 于 10 个 对 合 (2)。 

对 合 和 图 表 之 间 的 这 一 联系 决 不 是 显然 的 ,而 且 大 概 也 没有 非常 简单 的 办 法 来 
证 明 它 。 我 们 将 要 讨论 的 证 明 包 含 一 个 非常 有 趣 的 图 表 构 造 算法 , 它 有 和 在 干 其 它 意 
外 的 性 质 ,该 算法 是 以 把 新 元 素 插 人 图 表 的 一 个 特殊 过 程 为 基础 的 。 

例如 ,假设 要 对 图 表 


3151oTale 





(4) 








插入 元 素 8。 所 使 用 的 方法 是 ,开始 把 8 放 入 行 1, 放 在 原来 为 9 所 占据 的 小 格 上 ， 
因为 9 是 在 该 行 中 大 于 8 的 最 小 元 素 , 元 素 9 就 被 “ 撞 " 到 行 2, 在 那里 它 代替 10。 
然后 10 把 13 从 行 3“ 撞 ”到 行 4; 由 于 行 4 没有 大 于 13 的 元 素 , 这 一 过 程 遂 以 把 13 
插 人 到 行 4 的 右 端 而 终止 。 至 此 这 个 图 表 变 成 


[31sTs lal 
2|16|19115 (5) 


4 110|114 
11|13 
17 

这 个 过 程 的 精确 描述 在 算法 1 中 给 出 ,同时 还 证 明 此 过 程 始终 保持 图 表 性 质 。 

算法 I( 插 进 图 表 ) 设 P=(P;) 是 一 张 正 整数 的 图 表 , 又 设 z 是 不 在 P 中 的 一 
个 正 整 数 。 这 个 算法 把 P 变换 成 男 外 一 张 图 表 , 它 除了 含有 P 了 原来 的 元 素 外 ,还 含 
有 x。 这 张 新 的 图 表 除 了 在 第 ; 行 第 i 列 增加 一 个 新 的 位 置 外 ,形式 和 旧 的 图 表 相 
同 ,这 里 * 和 + 上 是 由 本 算法 所 确定 的 量 。 

(在 本 算法 中 带 圆 括 弧 的 注释 用 来 证 明 它 的 正确 性 ,因为 容易 归纳 地 验证 这 些 
注释 是 正确 的 ,以 及 在 整个 过 程 中 阵列 P 保持 为 一 图 表 。 为 了 方便 起 见 ,假定 这 图 
表 已 被 鳞 了 边 ,在 项 上 和 左边 有 一 些 0 并 在 右边 和 底下 有 一 些 coe ,使 得 对 于 所 有 的 
i,j 之 0,P; 都 有 定义 。 如 果 定 义 关系 

a 三 6b 当 且 仅 当 ae<p6 或 a=6b= 

则 这 些 图 表 不 等 式 就 可 用 下 列 方 使 的 形式 加 以 表达 
P;; = 0 当 且 仅 当 i=0 或 j=0 

P; 夺 Piow) 和 Pi 过 Po 对 所 有 i,j 宇 0 (7) 
语句 “zx P ”意味 着 ,或 x = co ,或 对 于 所 有 i,j 宇 0,z 关 Pi。) 

11.[ 输 入 xz] 置 i< 呈 1, 置 zi/ 下 zx, 并 置 ; 为 使 得 P; = oo 的 最 小 值 。 

. 46 . 


un 














0 或 a=46b6=% (6) 
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2 站 来 并 这 困 Po 区 Ps 是 oP 如 末 训 二 Pgs 则 了 碱 1 六 
重复 这 一 步骤 。 否 则 , 置 x;;1 一 P; 且 置 x, 一 j。 

取代 (EP PP Pe A iy 
yl 

| 
Zir1l 过 忆 Di 记 = , 且 Wd 在 Zi+1 天 co ，i 增 1 ,并 返回 步骤 I2。 

IS.[ 确定 s ,zj] 置 ;一 i ,1 一 j ,并 终止 此 算法 。 此 时 ,满足 条 件 


人 (8) 
| 
算法 I 定义 了 一 个 “碰撞 序列 ” 
ce es 0 A (9) 
和 一 个 辅助 的 列 标 序列 
a (10) 


对 于 1 和 ;和 ,元 素 Pi 已 经 从 x;+1 变 成 为 xz;。 例 如 , 当 把 8 插 到 (4) 中 时 ,碰撞 序列 
是 8,9,10,13,co, 且 辅助 序列 为 4,3,2,2。 我 们 可 以 用 另 一 种 形式 表述 这 个 算法 ， 
以 便 它 使 用 更 少 的 临时 存储 ;只 有 j) ,zx; 和 和 zx;; | 的 当前 值 需要 记 住 。 但 这 里 引信 了 
序列 (9) 和 (10), 为 的 是 能 够 证 明 关 于 这 个 算法 的 一 些 有 趣 的 事情 。 
关于 算法 [将 要 使 用 的 键 码 事实 在 于 它 能 够 被 “逆转 运行 " :给 定 在 步骤 I5 中 
确定 的 和 + 的 值 ,能 够 倒 过 来 把 已 转换 成 为 它 原 来 的 形式 ,并 确定 和 消去 被 插 人 
的 元 素 xz。 例如 ,考虑 (5) 并 假设 告诉 我 们 元 素 13 是 在 原 为 空格 的 位 置 上 , 则 13 必 
然 是 被 10 从 行 3 撞 下 的 ,因为 10 是 在 该 行 中 小 于 13 的 最 大 元 素 ; 类 似 地 ,10 必然 
是 被 9 从 行 2 撞 下 的 ,而 9 必然 是 被 8 从 行 1 撞 下 的 。 于 是 ,可 以 从 (5) 倒 回 到 (4)。 
下 列 算 法 详细 地 说 明 这 一 过 程 。 
算法 D( 从 一 图 表 删 去 ) 给 定 一 个 图 表 PP 以 及 满足 (8) 的 正 整 数 ; ,i ,本 算法 
把 P 变换 成 男 一 个 具有 几乎 相同 形状 的 图 表 , 但 在 第 * 行 第 上 列 处 具有 ce 。 由 本 算 
法 所 确定 的 一 个 元 素 x 被 从 PP 删 去 。 
(如 同 在 算法 I 中 一 样 ,这 里 加 上 了 和 带 圆 括 弧 的 断言 ,以 便于 证 明 在 整个 过 程 中 
P 保持 为 图 表 。) 
D1.[ 输 入 s,i1| 置 j<1,i<s,X,+1< 一 00。6 
D2.[ 求 x,」] (这 时 a 人 如 果 Poy < gata 
增加 1 并 重复 这 一 步骤 。 否 则 , 置 x, 一 P; 且 7; 一 j。 
3 仙人 
Zi 过 也 C++ 且 A Le 
站 
= P; 态 Poy;; 且 77;=j) 如 果 i>>1, 则 1i 减 1 并 返回 步 又 DD2。 
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D5.[ 确 定 x] 和 园 x 一 x| 并 终止 这 个 算法 (现在 0<x<o)。 | 


在 算法 I 和 算法 D 中 出 现 的 带 圆 括 弧 的 断言 不 仅 是 证 明 这 些 算法 保持 图 表 结 
构 的 有 用 方式 ,也 有 利于 验证 算法 I 和 品 愉 为 互 逆 。 给 定 某 个 图 表 P 和 某 个 正 整数 
zx 人 PP, 如 果 首 先 实施 算法 1, 它 将 插入 x ,并 确定 满足 (8) 的 正 整数 *,z; 对 此 结果 应 
用 算法 D, 则 将 重新 算出 xz 并 将 恢复 P。 反 过 来 ,给 定 某 个 图 表 P 和 某 个 满足 (8) 的 
整数 * ,+ ,如 果 首 先 实施 算法 DD, 它 将 修改 P, 删 去 某 个 正 整数 x ;对 此 结果 应 用 算法 
1 ,将 重新 算出 * 上 并 将 恢复 PP。 原 因 是 步骤 13 和 D4 的 带 圆 括 弧 的 断言 是 相同 的 ， 
步骤 I4 和 D3 的 断言 也 一 样 ,而 且 这 些 断 言 惟一 地 表征 ; 的 值 。 因 此 辅助 序列 (9)， 
(10) 在 每 种 情况 下 都 是 一 样 的 。 

现在 已 做 好 准备 来 证 明 图 表 的 一 个 基本 性 质 。 

定理 A 在 |1,2,…,nj 的 所 有 排列 的 集合 ,与 由 11,2,… ,nj 形成 的 图 表 的 有 
序 对 偶 (P,Q) 的 集合 之 间 , 有 一 对 一 的 对 应 ,其 中 P 和 Q 有 相同 的 形状 。 

(这 个 定理 的 一 个 例子 出 现 于 下 边 的 证 明 内 。) 

证 明 ”证明 一 个 稍微 更 一 般 的 结果 是 方便 的 。 给 定 任何 两 行 的 阵列 

(2 92 … 2 | 01 人 9 区 扩 9n 

pi p2 pal bi pp 不 同 
我 们 将 构造 两 个 对 应 的 图 表 P 和 Q, 其 中 P 的 元 素 是 1p1,…,p,| ,而 Q 的 元 素 是 
[gq1,…,g»| ,并 且 P 的 形状 即 是 Q 的 形状 。 

设 已 和 Q 开始 是 空 的 。 然 后 ,对 于 i=1,2,…,n( 以 这 个 次 序 ) 做 下 列 操作 : 利 
用 算法 I 把 p; 插入 图 表 Pi; 然 后 置 Q, 一 gq;, 其 中 ; 和 4 确定 P 中 的 新 被 填 入 的 位 
置 。 


(11) 

















A 1 3 5 6 8) op, 
例如 ,如 果 给 定 的 排列 是 | - ， 2 :上 ,我们 得 到 
P Q 
插入 7: 
插 和 人 2， 上 
7 3 
插入 9， (12) 
7 3 
插入 5， 2|5 | 
插入 3， 2|3 1 | > 
5 9 3 
8 
1 3 S$S 6 8 
于 是 对 应 于 |， ，，。。 3 的 图 表 (P,Q) 是 
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| 


S$ 
6 (13) 


加 
P= |5|9 |， Q = 
7 


由 这 种 构造 法 ,显然 P 和 Q 总 有 相同 的 形状 ;其 次 ,由 于 总 是 以 递增 的 次 序 在 
Q 的 周围 增加 元 素 , 故 Q 是 一 个 图 表 。 

反之 ,给 定 两 个 相同 形状 的 图 表 PP 和 Q ,我 们 可 以 求 相应 的 两 行 阵列 (11) 如 下 。 
设 Q 的 元 素 是 








Oo | 





ql < gq ><'* < gq, 

对 于 i=n,…,2,1( 以 这 个 次 序 ), 令 p; 是 当 应 用 算法 D 于 PP, 并且 用 使 得 Qu = gq; 
的 值 s、zt 时 ,被 消去 的 元 素 x。 

人 P 为 空 ,这 就 
得 到 ”3 608 

2 9 5 3 

由 于 算法 I 和 DD 彼此 互 逆 , 故 已 经 描述 的 两 个 构造 彼此 互 逆 ,而 且 建 立 了 一 一 
对 应 。 1 


在 定理 A 的 证 明 中 ,定义 的 对 应 关系 有 许多 惊人 的 性 质 , 现 在 就 着 手 来 推导 其 
中 的 某 些 。 读 者 不 妨 亲 手 试 试 习 题 1 中 的 例子 ,以便 在 往 下 阅读 之 前 能 熟悉 这 个 构 
造 。 
一 旦 已 经 从 行 1 把 一 个 元 素 撞 到 行 2 中 , 它 就 不 再 影响 行 1 了 ;而 且 由 “被 撞 ” 
元 素 序 列 来 构造 行 2,3,… 的 方法 ,恰恰 就 像 由 原来 的 排列 来 构造 行 1,2,… 一 样 。 
这 些 事 实 提 示 我 们 ,可 以 用 另 一 种 方式 来 考察 定理 A 的 构造 , 即 仅 专 注 于 PP 和 Q 的 
开头 几 行 。 例 如 ,按照 (12) ,排列 ; ; 引起 在 行 1 中 发 生 下 列 动作 ， 
1: 插 入 7, 置 Ql1o 
3: 插 入 2, 撞 下 7。 
5: 插 入 9 , 置 Q 1 5。 (14) 
6: 插 入 $5, 撞 下 9。 
8: 插 入 3, 撞 下 So 
于 是 已 的 头 一行 是 23, 而 Q 的 头 一 行 是 15, 其 次 ,P 和 Q 中 剩 下 的 行 是 对 应 于 
“被 撞 下 ”的 两 行 阵列 
7 os) (15) 


7 9 5S 

的 图 表 。 为 了 研究 行 1 上 构造 的 特性 ,可 以 考察 进入 该 行 的 一 个 给 定 列 的 诸 元 素 。 
我 们 说 ,(9;,p;) 相 对 于 两 行 阵列 

91 92°"*q» qi1< gqg9< "< dh 

， 16 

(» py) PpP1,pP2，… ,px 不 同 (16) 
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来 说 是 在 类 z 中 ,如 果 从 一 个 空 表格 P 开始 ,在 逐次 应 用 算法 I 于 pi, ps，…,p; 以 
后 ,p;= Pi 的话 ( 记 住 ,算法 工 总 是 把 给 定 的 元 素 插 入 到 行 1 中 )。 
容易 看 出 , 当 且 仅 当 p; 有 i 一 1 个 反 序 , 即 p;=min|pi,p,…,p;| 是 “ 自 左 到 右 
的 极 小 值 " 时 ,(g;p;) 在 类 1 中 。 如 果 删 去 (16) 中 属于 类 1 的 诸 列 , 则 得 到 另 一 个 两 
行 阵列 
(2) 92 gn (17) 
p11 PpP2°"pPn 
使 得 (gq, p) 相 对 于 (17) 来 说 是 在 类 : 中 , 当 且 仅 当 它 相 对 于 (16) 来 说 是 在 类 :+1 
中 。 从 (16) 进 行 到 (17) 的 操作 表示 撤消 行 1 最 左 的 位 置 。 这 给 了 一 个 确定 这 些 类 


的 系统 方法 。 例如 ,在 | 。 ; 3 中, 自 左 到 右 极 小 的 元 素 是 7 和 2, 所 以 类 1 


是 1(1,7),(3,2)1; 在 剩 下 的 阵列 [5 . 3 } 中 ,所 有 的 元 素 都 是 极 小 的 ,所 以 类 2 是 


1(S$,9),(6,$S),(8,3)}。 在 "被 撞 下 ”的 阵列 (1$) 中 ,类 工 是 (3,7),(8,$)} ,而 类 2 
是 |(6,9)|。 
对 于 任何 固定 的 上 值 ,类 + 的 元 素 可 以 标记 成 
(gi ,pi ),**, (qi ,Pi) 
其 中 
qi < qi <<qg 
pi > pi, > … > pi 
因为 随 着 插入 算法 的 进行 ,图 表 位 置 Pi, 取 的 值 是 递减 序列 Pi, ,pio 在 构造 结束 
时 ,有 


(18) 


Pi, = Pi， Q1 = qi (19) 
P 和 Q 的 第 2,3,… 行 是 通过 “被 撞 下 来 的 "两 行 阵列 定义 的 ,这 个 阵列 包含 

di di di 

pi: pi Pp (20) 


诸 列 ,加 上 以 类 似 方式 从 其 它 类 形成 的 其 它 列 。 
这 些 发 现 导 致 了 通过 手 算 来 算出 P 和 QQ 的 一 个 人 简单 方法 (见习 题 3), 而 且 它 们 
也 为 我 们 提供 了 证 明 一 个 颇 为 意外 的 结果 的 手段 。 
定理 B 如 时 萍 列 
] 2 1 
aa ‘YY a, 
对 应 于 定理 4 的 构 凌 中 的 图 表 (P ,QQ), 则 逆 排 列 对 应 于 (Q,P)。 
这 项 事实 是 十 分 惊人 的 ,因为 P 和 Q 在 定理 A 中 是 通过 完全 不 同 的 方法 形成 
的 ,而且 一 个 排列 的 逆 , 是 通过 稍微 反复 无 常 地 捣 动 两 行 阵列 的 诸 列 而 得 到 的 。 
.50 ， 
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证 明 假设 有 一 个 两 行 阵列 (16) ,交换 这 些 行 ,并 重 排 诸 列 ,使 得 新 的 顶 上 一 行 
以 递增 次 序 出 现 , 就 得 到 “ 道 "阵列 
(人 | 六 | pi< DC < 人 
p1 PpP2 "°° Pp, 91 42'"* 9, q1 92 gm/ qq2 9 不同 
(21) 
我 们 将 证 明 这 项 操作 对 应 于 在 定理 A 的 构造 中 交换 P 和 Q。 
习题 2 已 重新 叙述 了 如 何 确 定 类 的 注释 ,使 得 (9,, zp;) 的 类 不 依赖 于 9， ， 42，"""， 
qn 是 以 递增 次 序 出 现 的 这 一 事实 。 由 于 得 到 的 条 件 在 诸 go 和 诸 p 中 是 对 称 的 , 故 
操作 (21) 不 破坏 类 的 结构 ;如 果 (g,p) 相 对 于 (16) 来 说 是 处 于 类 1 中 , 则 (pp,g) 相 对 
于 (21) 来 说 就 处 于 类 上 中 。 如 果 因 此 通过 同 (18) 的 类 似 性 我 们 把 后 一 类 : 的 元 素 
排 成 
Pi < < pi;, < pi 


(22) 
gq > > > 
则 如 同 在 (19) 中 一 样 ,就 有 
Pl, = di ， Q 1, 一 Pi; (23) 
而 且 请 列 
Pi, 1 Pi, Pi 
(24) 
. di Ml di, di, 


如 同 在 (20) 中 一 样 进 入 到 “ 撞 下 的 "阵列 中 。 因 此 P 和 Q 的 前 几 行 被 交换 。 而 且 
(21) 的 “ 撞 下 的 "两 行 阵 列 是 (16) 的 “ 撞 下 的 "两 行 阵 列 的 道 , 所 以 ,通过 对 图 表 中 的 
行 数 用 归纳 法 , 允 完 成 了 这 一 证 明 。 | 
推论 由,2，……2j| 所 能 形成 的 几 表 的 数 月 是 11,2， ,7 上 的 邓 合 的 数 月 。 
证 明 ”如果 x 是 对 应 于 (P,QQ) 的 一 个 对 合 , 则 x = x 对 应 于 (Q,P); 因 此 P 
= Q。 反 之 ,如 果 x 是 对 应 于 (P,P) 的 任何 排列 , 则 x 也 对 应 于 (P,P), 因 此 x= 
fr 。 所 以 ,在 对 合 x 和 图 表 PP 之 间 存 在 一 一 对 应 。 11 


显然 ,一 个 图 表 在 左上 角 的 元 素 总 是 最 小 的 。 这 提示 了 对 一 个 数 集 进 行 排序 的 
一 种 可 能 的 途径 :首先 ,可 以 通过 反复 地 使 用 算法 1, 把 它们 放置 到 一 个 图 表 当 中 ;这 
号 把 最 小 的 元 率 放 到 角 上 。 然 后 删 去 这 个 最 小 的 元 素 , 并 重新 安排 剩余 的 元 素 ,使 
得 它们 形成 男 一 个 图 表 ; 然 后 删 去 新 的 最 小 元 素 ;等 等 。 

因此 ,让 我 们 来 考虑 当 从 图 表 





(25) 
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删 去 角 元 素 时 ,将 出 现 什么 情况 。 如 果 删 去 1, 则 2 必须 取代 它 的 位 置 。 然 后 可 以 加 
上 移动 4 到 2 原来 所 在 的 位 置 , 但 不 能 把 10 移动 到 4 原来 所 在 的 位 置 ;而 是 移动 9， 
然后 用 12 代替 9。 如 此 下 去 ,就 得 到 如 下 的 过 程 : 

算法 S( 删 去 角 元 素 ) 给 定 一 个 图 表 书 , 本 算法 删 去 已 的 左上 角 元 素 , 并 且 移 
动 其 他 的 元 素 ,使 得 P 仍 保 持 图 表 的 性 质 。 这 里 沿用 算法 I 和 DD 的 记号 约定 。 

S1.[ 初 始 化 ] 置 rr<1,s<1。 

S2.[ 完 成 ?] 如 果 P,= %, 则 此 过 程 完成 。 

S3.[ 比 较 ] 如 果 Pi 所 Poor, 则 转 到 步骤 S5( 考 察 恰 在 空格 下 方 和 右 方 

的 元 素 ,并 移动 其 中 较 小 者 )。 
S4. [ 左 移 ] 置 P, 一 Ps<s+1l, 并 返回 S3。 
S5.[ 上 移 ] 置 P. < 一 Prer+l, 并 返回 S2。 | 


容易 证 明 ,在 算法 S 已 经 删 去 了 P 的 角 元 素 之 后 ,P 仍然 是 一 个 图 表 ( 见 习题 
10)。 所 以 如 果 重 复 算法 S 直到 P 为 空 , 则 就 能 以 递增 的 次 序 读 出 它 的 元 素 。 可 
惜 ,这 并 不 是 像 将 看 到 的 其 它 方法 一 样 有 效 的 排序 算法 ; 它 的 极 小 运行 时 间 与 “成 
比例 ,而 使 用 树 形 而 不 是 使 用 图 表 结 构 的 类 似 算 法 , 却 有 阶 为 nlogsn 的 执行 时 间 。 

尽管 算法 S 不 能 导致 一 个 特别 有 效 的 排序 算法 ,但 它 却 有 某 些 有 趣 的 性 质 。 

定理 C(M.P.Schlitzenberger) ”如果 忆 是 由 排列 a1 az …an 通过 定理 A 的 构造 
形成 的 图 表 , 而 且 如 果 a,= min{al,as,,"…,a,|, 则 算法 S 哲 卫 变 成 为 对应 于 ai … 
a;,_14;:+1“…an 的 图 表 。 

证 明 见习 题 13。 | 

在 应 用 算法 S 于 一 图 表 之 后 ,把 删 去 的 元 素 放置 到 刚刚 空 出 来 的 位 置 P,, 中 ,并 
用 斜体 来 指出 它 实际 上 不 是 这 个 图 表 的 一 部 分 。 例 如 在 应 用 这 一 过 程 于 图 表 (25) 


之 后 ,我 们 将 有 


4 16 














再 应 用 两 次 ,得 出 
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继续 进行 ,直到 所 有 元 素 都 已 被 出 去 为 止 , 给 出 
16 12432 1012 





(26) 





它 同 原 来 的 图 表 (2$) 有 同样 的 形状 。 这 个 结构 可 以 称 做 一 个 对 偶 图 表 , 因 为 它 除了 
使 用 "对偶 次 序 ”( 逆 转 < 和 > 的 作用 ) 这 一 点 外 ,其 它 都 像 一 个 图 表 。 我 们 以 符号 
Ps 表示 以 这 种 方式 由 P 形成 的 对 偶 图 表 。 

由 Ps 可 以 惟一 地 确定 已 ;事实 上 ,通过 应 用 完全 相同 的 算法 (除了 逆转 斜体 和 
正体 的 次 序 和 角色 外 ) ,可 以 从 Ps 得 到 原来 的 图 表 P, 因 为 P 是 一 个 对 偶 图 表 。 例 
如 ,应 用 这 个 算法 于 (26) 两 步 , 将 给 出 

1 0|2 
111 91614| 
8 
7 | 1 
16 | 


并 最 终 将 重新 产生 出 (25) 米 ! 这 这 个 值得 注意 的 事实 是 下 一 定理 的 推论 之 一 。 
定理 D(C. Schensted,M.P.Schuitzenberger) 让 














(» G2 “ 了 (27) 
p1 p2 Dp 
是 对 应 于 图 表 (P,Q) 的 两 行 阵列 。 
a) 对 请 9 ,而 不 是 对 请 pb 应 用 对 偶 ( 逆 转 ) 次 序 , 则 两 行 阵列 
人 “**” 42 1!) (28) 


p» * p2 pi 
对 应 于 (PI,(Q5)T)。 

像 通常 一 样 ,“T” 表 示 对 行 和 列 进行 转 置 的 操作 ; P' 是 一 个 图 表 ,而 (Q”>) 是 
一 个 对 偶 图 表 ,因为 诸 a 的 次 序 被 逆转 了 。 

b) 对 请 p 而 不 是 对 诸 g 应 用 对 但 次 序 , 则 两 行 阵列 (27) 对 应 于 ((P),Q )。 

c) 对 请 户 和 请 9 同时 应 用 对 但 次 序 , 则 两 行 阵列 (28) 对 应 于 (Ps ,Q"” )。 

证 明 这 个 定理 的 简单 证 明 尚 不 可 知 。 对 于 某 个 对 偶 图 表 X ,情况 a) 对 应 于 
(PP ,X) 这 一 事实 ,在 习题 $ 中 证 明 ; 因 此 由 定理 B, 对 于 某 个 对 偶 图 表 Y ,情况 b) 对 
应 于 (Y,Q'), 且 必然 有 PT 的 形状 。 

设 p;=min| p11,…,p,| ;由 于 p; 是 对 侦 次 序 下 “最 大 的 ”元素 , 它 出 现 于 Y 的 外 
围 上 ,而 且 它 不 撞 下 定理 A 的 构造 中 的 任何 元 素 。 于 是 ,如 果 利 用 对 偶 次 序 ,逐次 地 
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插入 pi ,pi-1; pit1;… ;pa; 则 就 得 到 YY 一 pp;} , 即 除去 了 p; 的 Y。 由 定理 C, 如 
果 利 用 正常 的 次 序 , 逐 次 地 插入 Pi Pi-1; Pi+t1，"…“，p;, 则 得 到 对 p 使 用 算法 S 
而 得 到 的 图 表 4(P)。 对 nn 用 归纳 法 ,Y 一 ip,| =(da(P)3)I。 但 由 于 按 操 作 S 的 
定义 
(P) -2 = (4(P)S)T (29) 

以 及 由 于 站 有 和 (已 ) 同样 的 形状 ,必然 有 Y= (PS)T。 

这 就 证 明了 b) ,而且 通过 应 用 定理 B 而 得 出 a)。 相 继 地 应 用 a) 和 b) ,可 证 明 情 
况 c) 对 应 于 (((P) 六 ) (CQ3s))I)3; 而 这 就 是 (Ps,Q5) ,因为 由 操作 S 的 行 、 列 对 
称 性 可 知 (P2)I=(PI)>。 | 


特别 是 ,这 个 定理 证 实 了 关于 图 表 插 入 算法 的 两 个 惊人 的 事实 :如 果 逐 次 插入 
不 同 的 元 素 pj ，,…,p, 到 一 个 空 图 表 中 可 产生 图 表 P, 则 按 相反 的 次 序 插入 p, ,…， 
pi! 就 产生 转 置 图 表 P'。 而 如 果 不 仅 以 这 个 次 序 p,,…, pi 插入 诸 pbp ,并且 在 插入 
过 程 中 也 交换 < 和 > 以 及 0 和 ce 的 作用 , 则 就 得 到 对 偶 图 表 PS。 读 者 不 妨 用 一 些 
简单 的 例子 来 试验 这 些 过 程 。 这 些 巧合 的 不 寻常 的 属性 可 能 使 我 们 猜测 :在 舞台 后 
边 有 某 些 魔法 在 操纵 ! 还 不 知道 关于 这 些 现象 的 简单 的 解释 ;甚至 没有 显然 的 方式 
来 证 明 下 列 事实 :情况 c) 对 应 于 与 P 和 Q 有 相同 形状 的 图 表 , 尽 管 习 题 2 中 的 类 的 
特征 确实 提供 了 一 个 重要 的 提示 。 

G. de B.RobinsonLAmerican J]. Math. 60(1938) ,74$ 一 760,8$5] 以 稍微 含混 和 
不 同 的 形式 ,给 出 了 定理 A 中 的 对 应 关系 ,作为 解决 群 论 中 颇 为 困难 的 问题 的 一 部 
分 。 他 未 加 证 明 地 叙述 了 定理 B。 许 多 年 后 ,C. Schensted 独立 地 重新 发 现 了 这 个 
对 应 关系 ,他 所 指出 的 这 一 对 应 关系 ,实质 上 是 借助 于 我 们 在 算法 I 中 所 做 的 那样 
的 “位 撞 " 给 出 的 ,Schensted 还 说 明了 定理 D 的 a) 的 “P” 部 分 [Canadian J. Math. 13 
(1961),179~191]。M.P. Schtitzenberger[Math. Scand. 12(1963) ,117 一 128] 证 明 
了 定理 C 和 定理 D(a) 的 “Q "7 部 分 ,由 它们 就 得 出 了 b) 和 c)。 有 可 能 把 这 个 对 应 关 
系 推广 到 多 重 集合 的 排列 ; Schensted 考虑 了 pi,…,p, 不 必 是 不 同 的 情况 ,而 
Knuth 人 赋 究 了 最 终 推广 到 诸 p 和 诸 q 两 者 恬 可 以 包含 重复 元 素 的 情况 [Pacific J. 
Math. 34 (1970) ,709 一 727 | 。 

现在 我 们 转 到 一 个 有 关 的 问题 :有 和 多少 个 由 {1,2,…, nj] 形成 的 图 表 有 一 个 纷 
定 的 形状 (ni,n2 nn); 其 中 n+n2pt+ 十 n= 二 nn? 如 果 用 f(n,,n,,… ,nn ) 来 
表示 这 个 数 , 而 且 人 允许 参数 n; 为 任意 整数 , 则 函数 f 必然 满足 下 列 关系 : 


flniyn2,… nm) 二 0 除非 nl 宇 n; 宇 … 宇 n, 宇 0 (30) 
Fi 2 ,nm 0) = fni, n,n,,) (31) 

jn) = fni ml,ny na) + flnisn2 m1, ,nNn,) + 
+ jl 一 1) ”如果 1 宇 n; 宇 … 宇 n, 宇 1 (32) 


递 推 式 (32) 得 自 这 样 一 个 事实 , 即 撤消 一 个 图 表 的 最 大 元 素 后 总 是 得 到 另 一 个 图 
表 ; 例 如 ,形状 为 (6,4,4,1) 的 图 表 个 数 是 F(3,4,4,1)+ (6,3,4,1)+ f(6,4,3,1) 
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+ f(6,4,4,0)= f(5,4,4,1) + f(6,4,3,1)+ 了 (6,4,4) ,因为 11,2,…,151 上 形状 为 
(6 4,4,1) 的 每 个 图 表 , 均 由 插入 元 素 15 到 形状 为 (5,4,4,1),(6,4,3,1) 或 (6,4,4) 
一 个 图 表 的 适当 位 置 而 形成 。 如 下 图 


满足 这 些 关 系 的 函数 f(n1,n2,…,n) 有 一 个 相当 简单 的 形式 
Aln+m—-1,n2+m — 2, ,nm)n! 
flni,n2, ,nNn») = (ni+ mo—1)(n, + mm — 2)1n,! (34) 
假定 相当 温和 的 条 件 
11 十 11 一 1 之 zz+M 一 2 之 … 之 7 


满足 ;这 里 A 表示 下 列 “ 判 别 式 的 平方 根 " 函 数 


mt 


ni—1 mn—1 7 一 工 
XI Tx» 工 | 
A(X1, Ty, ,Th ) = det I? 3 zr 一 [| (xi 和 Xj) (35) 
: i&i<j<m 
之 1 之 2 Cm 
| 1 1 曙 名 是 1 | 


公式 (34) 是 G. Frobenius 在 解决 群 论 中 的 一 个 等 价 问 题 时 导出 的 [Sitzungsberichte 
PreuB. Akad. der Wissenschaften (1900),516~ 534, $ 3], 并 且 利 用 了 一 个 颇 为 深入 
的 群 论 上 的 论证 。MacMahon 独立 地 给 出 了 一 个 组 合 的 证 明 [LPhilosophical Trans. 
A209(1909) ,153 一 175]。 这 个 公式 可 以 通过 归纳 法 来 建立 ,因为 关系 (30) 和 (31) 是 
容易 证 明 的 ,而 且 在 习题 17 的 恒等式 中 置 y= -1 就 得 出 (32)。 

定理 A 给 出 了 与 图 表 数 的 这 个 公式 有 关 的 一 个 值得 注意 的 恒等式 。 如 果 对 所 
有 形状 求 和 , 则 有 

n: = 2 fk1,k2,.",k,) = 


上 之 k, 之 之 k 之 0 
二 二 和 二 
2 
12 A(kI+n-l,k ,+n—2,..,k,) 
n 7 一 
. 5 5 7 
k +k t+k =n 


2 
12 A(qi,g2, ,9n) 
2 2...， 2 
qi>9,>"…> 9g,>0 qi1! q2! qn! 
91+92?+ 人 二 9 = (n+1)n)2 
2 
因此 A(alyg2，…，qyn) 


202 二 (36) 
qt gat ta Catt) nl? d1: (42.: dn: 
41 92 ,9, 之 0 


在 后 面 这 个 和 式 中 ,已 经 除去 了 不 等 式 g1 > qz>…>9q,，, 因 为 被 加 数 是 诸 q 的 对 称 
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函数 , 当 g; = 9 时 它 为 0。 一 个 类 似 的 恒等式 在 习题 24 中 出 现 。 

基于 “钩子 "的 思想 ,可 以 用 一 种 更 有 趣 的 方式 来 委 
达 求 图 表 个 数 的 公式 。 对 应 于 图 表 中 的 每 个 小 格 ,可 和 定 
义 钓 子 为 小 格 本 身 加 上 位 于 其 下 边 和 右边 的 诸 小 格 。 例 
如 ,图 5 的 阴影 区 域 是 对 应 于 行 2、 列 3 的 小 格 (2,3) 的 
钩子 ; 它 包 含 6 个 小 格 。 图 $ 的 每 个 小 格 已 经 填 以 它 的 
钩子 的 长 度 。 

如 果 图 表 的 形状 为 (n1,ns,…,n), 则 最 长 钩子 的 
长 度 为 n+ m 一 1。 对 钩子 长 度 作 进 一 步 的 考察 表明 ， 图 5 钩子 及 钩子 的 长 度 
行 1 包含 所 有 长 度 n1+m 一 1,ni+m 一 2,…,1, 但 不 包括 (ni1+ mm 一 1) 一 (n,)， 
(n+m 一 1) 一 (ni1+1), 下 ,nj+ mm 一 1) 一 (nn;+ m 一 2)。 例如 ,在 图 5 中 , 行 1 
的 钧 子 长 度 是 12,11,10,…,1 中 除 10,9,6,3,2 之 外 的 数 ;这 些 例外 对 应 于 5 个 不 
存在 的 钩子 , 即 从 不 存在 的 诸 小 格 (6,3),(3,3),(4,5),(3,7),(2,7) 通 到 小 格 (1,7) 
的 钧 子 。 类 似 地 , 行 ; 包含 有 所 有 的 钩子 长 度 刀 + 和 -7 但 不 包括 (2 二 7 一 
j) 一 《nm)s (+ 下 -or+M-7-1)。 由 此 得 出 所 有 钩子 长 度 的 乘积 和 
于 








(21+72 一 1)12 二 7 一 2)1 7 1 

A(21 十 了 2 一 1 25 十 7 一 2 和 2) 
这 怡 是 等 式 (34) 中 的 内 容 , 所 以 我 们 就 导出 了 由 J.S.Frame,G. de B. Robinson 以 及 
R.M.Thrall[Canadian J]. Math. 6 (1954),316 一 318] 所 得 出 的 受 人 赞誉 的 结果 : 


定理 H |11,2,…,n} 上 的 有 一 个 确定 形状 的 图 表 数 十 n!1 除 以 钩子 长 度 的 飞 
既然 是 如 此 简单 的 规则 , 它 应 该 有 一 个 简单 的 证 明 。 一 个 启发 性 的 论证 进行 : 
这 个 图 表 的 每 个 元 素 在 它 的 钩子 中 是 最 小 的 。 如 果 随 机 地 填 图 表 , 则 小 格 (i,7 包 
含 对 应 钧 子 的 极 小 元 素 的 概率 是 钩子 长 度 的 倒数 。 对 于 所 有 的 i 和 j 求 这 些 概率 
的 乘积 即 给 出 定理 有。 但 不 幸 地 是 ,这 个 论证 是 荒 廖 的 ,因为 这 些 概率 远 不 是 独立 
的 。 尽 管 研究 者 们 确实 发 现 了 很 多 有 启发 性 的 间接 证 明 ( 习 题 35,36 和 38) ,但 直到 
1992 年 以 前 (见习 题 39) ,基于 正确 使 用 钩子 组 合 性 质 的 定理 H 尚未 有 直接 的 证 明 。 
定理 HH 同 我 们 在 第 2 章 中 所 考虑 的 树 的 枚 举 有 着 有 趣 的 联系 。 我 们 注意 到 ,有 
n 个 节点 的 二 叉 树 对 应 于 可 通过 一 个 找 得 到 的 排列 ,而 且 这 样 的 排列 对 应 于 nn 个 S 
和 7 个 X 的 那些 序列 a1a,…as,, 其 中 当 自 左 向 右 阅 读 时 ,S 的 个 数 决 不 少 于 XX 的 
个 数 ( 见 习题 2.2.1-3 和 2.3.1-6)。 后 面 的 那些 序列 以 自然 的 方式 对 应 于 形状 为 
(n,n) 的 图 表 ;我们 在 行 1 放置 使 得 a,=S 的 下 标 i ,而 在 行 2 中 放置 使 得 co; =X 的 
下 标 i。 例 如 ,序列 
SS Sx x S Sx XxX Sx XxX 
对 应 于 图 表 
. $6 . 
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Ta en 
由 四 站 四 区 


在 这 个 图 表 中 , 当 且 仅 当 自 左 向 右 读 义 的 个 数 决 不 超过 S 的 个 数 时 ,关于 列 的 限 负 
成 立 。 由 定理 旦 , 形 如 (n,n ) 的 图 表 的 数目 是 

2n)! 

2 ET 

而 这 是 二 又 树 的 数目 (同等 式 2.3.4.4-(14) 一 致 )。 而 且 , 如 果 对 于 nn 宇 m 使 用 形状 
为 (n,m ) 的 图 表 , 那 么 这 个 论证 解决 了 在 习题 2.2.1-4 的 答案 中 考虑 的 ,更 为 一 般 
的 “抽签 "问题 。 所 以 ,定理 可 包括 了 某 些 颇 为 复杂 的 枚 举 问 题 作 为 简单 的 特殊 情 
总 。 

元 素 11,2,…,272} 上 形状 为 (”,2) 的 任何 图 表 A 按 MacMahonLCompinatory 
Analysis 1 (1915),130~ 131] 提 出 的 如 下 廊 吉 对 应 于 相 轩 形状 的 两 个 国 妆 ( 玉 ， Q ) 。 
设 P 由 在 A 中 出 现 的 元 素 和 1,…,n| 组 成 ;Q 由 剩 下 的 元 素 转 动 180 ,并 分 别 以 2，， 
n 一 1,…,1 代替 n+1,n+2,: 2 形成 。 例 如 ,(37) 分 成 为 


Ee 四 加 
四 加 加 加 


We 就 得 到 


,er 可 册 

反之 ,任何 一 人 n 个 小 格 相 等 形状 的 图 表 ,都 以 这 样 一 种 方式 对 应 
于 形状 为 (n,n ) 的 图 表 。 因 此 由 习题 7, 不 包 售 谤 减 子 序列 a;>a; > ai(i<j< 上 ) 的 
1 和 1,2,…,n| 的 排列 a1as…a, 的 个 数 , 为 具有 nn 个 节点 的 二 义 柄 的 个 数 。D. Rotem 
[Combinatory Analysis 1(191S) ,130 一 131] 发 现 了 在 这 样 的 排列 和 二 叉 树 之 间 有 一 
个 有 趣 的 一 一 对 应 , 它 较 之 这 里 已 经 使 用 的 经 由 算法 I 的 迁 回 (多 圈 ) 方 法 更 直接 。 
类 似 地 ,在 二 叉 树 和 对 于 i<j<k 没有 a;>>as>>a; 情形 的 排列 之 间 , 有 着 磊 为 直接 
的 对 应 (见习 题 2.2.1-5)。 

填写 一 个 (6,4,4,1) 形 的 图 表 的 方式 数 ,显然 是 把 标号 11,2,…,151}, 以 如 下 方 
式 放 置 到 有 向 图 的 顶点 的 方式 数 








(39) 


这 种 放置 的 方式 就 是 每 当 ww 一 v 时 ,顶点 w 的 标号 小 于 顶点 wv 的 标号 。 换 言 之 , 它 
是 在 2.2.3 小 节 的 意义 下 ,对 偏 序 (39) 进 行 拓扑 排序 的 方式 数 。 
. 57 


第 S 章 排序 


一 般 说 来 ,我们 可 以 对 不 包含 有 向 回路 的 任何 有 向 图 问 同 样 的 问题 。 如 果 有 把 
定理 于 推广 到 任意 有 向 图 的 其 个 简单 的 公式 , 那 就 好 了 ;但 并 非 所 有 的 图 都 像 对 应 
于 图 表 的 图 一 样 有 这 样 令 人 高 兴 的 性 质 。 本 节 末 尾 的 习题 中 讨论 了 某 些 其 它 类 的 
有 问 图 ,对 于 它们 来 说 ,标号 问题 有 一 个 简单 的 解 。 也 还 有 一 些 习 题 , 说 明 某 些 有 向 
图 没有 对 应 于 定理 日 的 简单 公式 。 例 如 ,加 标号 的 方式 数 不 总 是 n! 的 一 个 因子 。 

为 了 完成 我 们 的 研究 ,我们 来 计算 可 以 由 ”个 不 同 的 元 素 形 成 的 图 表 总 数 ; 并 
以 z 来 表示 这 个 数 。 由 定理 B 的 推论 ,i, 是 11,2,…,n|1 的 对 合 数 。 当 和 且 仅 当 一 个 
排列 的 轮换 形式 仅 由 一 元 轮换 (不 动 点 ) 和 二 元 轮换 (对 换 ) 所 组 成 时 ,这 个 排列 是 它 
自己 的 道 。 由 于 如 个 对 合 中 的 i _ 1 个 有 一 元 轮换 (nn), 且 它们 中 的 i -个 有 二 元 轮 
换 (jn)( 对 于 固定 的 j 之), 得 到 公式 

1 = t+ (nom1)i,.» (40) 
这 是 Rothe 于 1800 年 设计 出 来 的 ,以 便 对 于 小 的 n 造 出 1, 表 。 对 于 n 宇 0 的 值 是 
1,1,2,4,10,26,76,232,2620,9496,…。 

用 另 一 种 方式 来 计数 时 ,假设 有 & 个 二 元 轮换 和 (n 一 2&) 个 一 元 轮换 。 有 


[” j 和 方法 来 选择 不 动 点 , 且 多 项 式 系数 (2&)! /(21)* 是 把 其 它 元 素 排 成 个 不 
同 的 转 置 的 方式 数 ; 除 以 &! 使 得 转 置 是 不 加 区 别 的 ,因此 得 到 


Ln/2] 


Vi nl 
Cn 2 tn(k), tntk) = (n — 2k)124k1 (41) 


可 惜 ,这 个 和 数 没有 简单 的 封闭 形式 (除非 我 们 选择 把 Hermite 多 项 式 ia2-"2 Hn 
(一 i/Y2) 当 做 简单 的 多 项 式 ) ,所 以 可 用 两 个 间接 的 方法 以 得 到 对 于 刀 的 更 好 的 理 
解 : 

a) 可 以 找到 生成 函数 

Dr" /fn! = et (42) 

见习 题 25。 

b) 可 以 确定 i, 的 渐 近 特性 。 这 是 一 个 非常 有 启发 性 的 问题 ,因为 它 包 括 某 些 
在 其 它 方 面 对 我 们 有 用 的 一 般 性 技术 ,所 以 我 们 将 以 分 析 1, 的 渐 近 特性 来 结束 这 
一 节 。 

分 析 (41) 渐 近 特 性 的 头 一 步 ,是 判明 它 对 于 和 数 的 主要 贡献 。 由 于 


inl(k+1) (n—2k)(n—-2k—1) 
tk) 2(k+1) 





(43) 


可 以 看 到 ,从 =0 直到 当下 近似 于 方 (2 一 YH) 时 ,4(h+1)~ts(), 这 些 项 逐渐 


地 增加 ;然后 当 超 过 广 n 时 它们 又 逐 浙 地 减少 成 为 0。 主要 的 贡献 显然 来 自 记 = 地 
. $8 . 


“5.1 排列 的 组 合 性 质 
(n -Vz) 的 附近 。 通 常 都 喜欢 把 主要 贡献 安排 在 值 为 0 处 ,所 以 写 


= 六 (mn -Vn)+ (44) 
并 把 i,(&) 的 大 小 看 做 xz 的 函数 。 
摆脱 1, (8) 中 阶乘 的 一 个 有 用 的 方法 是 ,使 用 斯 特 林 近似 公式 ,也 就 是 等 式 


1.2.11.2-(18)。 为 此 目的 ,把 zx 限制 在 
加 mn‘+1/4 < x << n+1/4 (45) 


的 范围 内 是 方便 的 (我 们 马上 就 会 见 到 ) ,比如 说 ,其 中 e=0.001 ,使 得 可 以 把 一 个 误 
差 项 包括 进来 。 经 过 一 个 稍微 麻烦 的 计算 ,作者 曾经 在 60 年 代用 手 算 它 ,但 现在 偿 
助 于 计算 机 代数 很 容易 就 可 完成 ,产生 下 列 的 公式 


tn(k) =exp (In n 一 57 +Vn-— zn n -2x /vn 一 J 


Flnx - 人 zajz + 2zx/vVnt+ IVn Sz/nVat 


Ol nl) | (46) 


(45) 中 对 x 所 做 的 限制 是 合理 的 ,因为 可 以 置 z= + n*! 来 给 出 所 有 被 舍弃 的 项 
的 上 限 , 即 


eexp (TnIn nC— 3 +wV7 一 In nC— 二 - 
到 n+ O(n !4) (47) 


而 且 如 果 乘 以 n, 则 就 得 到 所 有 被 舍弃 的 项 之 和 的 上 限 。 当 z 属于 被 限制 的 范围 
(45) 时 ,这 个 上 限 的 阶 小 于 所 要 计算 的 各 项 的 阶 ,因为 因子 exp( 一 2n”') 比 起 的 任 
何 多 项 式 来 都 要 小 得 多 。 

显然 ,可 以 从 这 个 和 式 中 删 去 因 式 


exp[ 广 inn 一 六 +VW -Ann- 才 -nrtr 了 lv (48) 


4 2 3 
剩 下 的 任务 是 在 x =a,a+1,…,8B 一 2,8 一 1 的 范围 上 对 
exp (~ 223/ Vm -zj +2r/Vn ~ 3x ya + O(n W) |= 
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xp(- 闫 |(1 -4 三 + 世 1+2 启 +2 )x 
人 -400 -3/4) ) (49) 


求 和 ,其 中 一 a 和 8 近似 地 等 于 n+ 玉 ( 不 必 是 整数 )。 通 过 对 求 和 区 间 的 变换 , 欧 拉 
求 和 公式 , 即 等 式 1.2.11.2-(10), 可 以 写成 


有 
Dr) -| roadz Fz) 


a<z<Ap 








m+t+l (S50) 


mm 十 1 711 十 ] 


1 cn | 
m1! a 


这 里 | R, | 过 (4/(27x)” | ma) | dzo 如 果 设 A(z) = Ziexp( 一 2z2/V7) ,其 
中 :是 一 个 固定 的 非 负 整数 , 欧 拉 求 和 公式 将 给 出 当 nn 一 co 时 f(z) 的 一 个 渐 近 
级 数 , 因 为 在 这 种 情况 下 


f°.™ (zx) 二 nt mAg(m) 4 六 )， g(y) 一 Ver27 (51) 


且 g(y) 是 与 2 无关 的 一 个 很 整齐 的 函数 ;导数 g'”(y) 是 y 的 多 项 式 乘 以 e- 2 ， 
因此 


R, — OO |g'™ (yy) [dy 一 O(n‘''tl-”)/4) 


而 且 ,如 有 果 在 (50) 的 右边 以 - cc 和 +c 来 代替 a 和 8B, 则 在 每 项 中 至 多 造成 阶 为 
Ol(exp (一 2n')) 的 一 个 误差 。 于 是 


> 2)=| f(x)drz+ O(n ”)， 对 于 所 有 ww 宇 0 (52) 


or<Bh 
给 定 f(z) 的 这 个 特定 的 选择 ,仅仅 这 个 积分 是 真正 有 意义 的 ! 这 个 积分 不 难 求 值 
(见习 题 人 (的) 下 康利 ,这 给 站 
/4 二 -1/ -1/ 
V2 (7 1/4 2 n 104+O(7n 9) 
于 是 ， it, = ea 十 En 十 On) (53) 
实际 上 ,在 这 里 O 项 应 该 在 指数 中 有 一 个 额外 的 9¢ ,但 我 们 的 处 理 方 法 使 这 样 


一 把 变 得 显然 了 , 即 如 果 在 中 间 计 算 中 取 更 高 的 精确 性 , 则 这 个 9¢ 就 将 消失 。 原 则 
上 ,我 们 已 经 使 用 的 这 个 方法 可 加 以 推广 ,以 得 到 对 于 任意 的 O(n ”“), 而 不 是 
:6060 ， 
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O(n 4)。t; 的 这 一 渐 近 级 数 ,首先 是 由 Moser 和 Wyman 确定 的 (使 用 不 同 的 方 
法 ), 见 Canadian J. Math. 7(1955),159~168。 

我 们 用 来 推导 (53 ) 的 方法 对 于 渐 近 分 析 来 说 是 极为 有 用 的 一 项 技术 , 它 是 由 
P.S. Laplace[ Mémoires Acad.Sci. (Paris,1782) ,1 一 88] 提 出 来 的 ;详细 的 讨论 请 人 参 
见 CMath , 3 9.4 中 的 “trading tails”"。 关 于 tail-trading( 尾 部 推销 ) 的 进一步 的 例子 
和 推广 ,请 参见 5.2.2 小 节 的 结论 。 


习 是 


1.[16] 什么 图 表 (P,Q) 对 应 于 定理 A 的 构造 中 的 两 行 阵列 
(1 234353678 ?| 
64957128 3 
什么 两 行 阵列 对 应 于 图 表 





2.[M21] 证明: 当 且 仅 当 上 是 使 得 
pi < p< < 六 pqg<gq< <9q =9 
的 下 标 1 ,is，… ,i 的 最 大 个 数 时 ,(q,p) 属 于 相对 于 (16) 而 言 的 类 1。 
>3. LM24 ] 证 明 在 定理 A 的 证 明 中 ,所 定义 的 对 应 关系 也 可 通过 构造 如 下 的 一 张 表 来 得 到 


行 0 1 3 5 6 8 
行 1 7 2 9 5 3 
2 co 7 co 9 5 


3 Co co 7 
何 4 co 
这 里 行 0 和 行 1 即 是 给 定 的 两 行 阵列 。 对 于 有 宇 1, 行 上 +1 通过 下 列 步骤 由 行 形成 : 

a) 置 旋 <-oo 。 

b) 设 第 7 列 是 具有 下 列 性 质 的 诸 列 中 最 左边 的 列 , 即 :该 列 的 第 有 行 包 含 一 个 < 的 整数 ,但 
第 &+Ll 行 是 空白 。 如 果 不 存 在 这 样 的 列 , 且 如 果 p= co , 则 第 有 &+1T1 行 就 完成 了 ;如 果 不 存在 这 
样 的 列 且 p< co , 则 返回 a)。 

c) 把 p 插入 到 第 +1 行 的 第 ; 列 中 ,然后 置 p 等 于 第 行 第 ; 列 处 的 项 ,并 且 返 回 b。 

一 旦 这 张 表 以 这 样 的 方式 构造 出 来 ,P 的 第 & 行 就 由 这 张 表 的 第 行 中 ,那些 不 在 该 表 的 第 
(+1) 行 中 的 整数 所 组 成 ;Q 的 第 行 由 在 这 张 表 的 第 0 行 中 那样 一 些 整数 所 组 成 ,它们 所 在 列 
的 第 上 +1 行 均 含 有 %。 

>4.[M30] 设 oj…a ia…a, 是 不 同 元 素 的 一 个 排列 ,并 假定 1<j 过 ,如 果 

i)j 宇 3 且 a;-; 处 于 a;_1 和 a; 之 间 , 或 者 

ii)j<n 且 a;; 处 于 a -1 和 Qj 之 间 9 
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则 由 交换 a; 1 和 a; 得 到 的 排列 a aoc ai…an 称 为 "可 允许 的 "”。 例 如 ,对 排列 
1$S46837 实 施 的 可 允许 交换 恰 有 3 个 ;由 于 1<4<5, 我 们 可 以 交换 1 和 5$; 由 于 3<6<8( 或 者 
由 于 3<7<8) 我 们 可 以 交换 8 和 3; 但 我 们 不 能 交换 5 和 4 或 3 和 7。 

a) 证 明 通 过 把 元 素 al ,cz,…a 逐次 插入 到 开始 时 为 空 的 图 表 ,一 个 可 允许 的 交换 不 改变 由 
排列 所 形成 的 图 表 P。 

b) 反 之 ,证 明 通 过 一 个 或 多 个 可 允许 的 交换 组 成 的 一 个 序列 ,有 相同 的 P 图 表 的 任何 两 个 排 
列 可 彼此 进行 转换 [提示 :给 定 已 的 形状 是 (ni,n,,… ,7n,;)。 试 证 明 对 应 于 P 的 任何 排列 ,通过 
一 个 可 允许 交换 的 序列 ,可 被 转换 成 “规范 排列 ” psy*… pm *… p21 pzn, Pu pin ]。 


了 5.[ M22 ] 设 P 是 对 应 于 排列 a a，…a, 的 图 表 ; 利 用 习题 4 证明 已 是 对 应 于 a, …as ai 的 

图 表 。 

6.[ M26 ](M.P. Schiitzenberger) 设 x 是 具有 个 不 动 点 的 一 个 对 合 , 证 明 在 定理 B 的 推论 的 
证 明 中 ,对 应 于 r 的 图 表 恰 有 & 个 奇数 长 度 的 列 。 

7.[ M20 1(C. Schensted) 设 P 是 对 应 于 排列 a1a,…a, 的 图 表 。 证 明 P 中 列 的 数目 是 一 个 递 
增 子 序列 a < ai,<…< a 的 最 大 长 度 c, 其 中 记 <ij<…<ic;P 中 行 的 数目 是 一 个 递减 子 序列 
Qj aj,>… >aj 的 最 大 长 度 r ,其 中 j<jo<…<j,。 

8.[ M18 ][P.Erd6s,G. Szekeres] 证 明 含 有 多 于 n“ 个 元 素 的 任何 排列 ,都 有 一 个 长 度 大 于 >” 
的 单调 子 序列 ,但 却 有 2 个 元 素 的 排列 , 且 它 无 长 度 大 于 的 单调 子 序 列 [ 提 示 : 见 前 一 习题 ]。 

9.[ M24 ] 继续 习题 8, 对 于 没有 长 度 大 于 n 的 单调 子 序列 的 i1,2,…,n*} 的 排列 , 求 出 一 个 
“人 简单 的 "精确 个 数 的 公式 。 

10.[ M20|] 证 明 者 P 开始 时 是 一 图 表 , 则 当 算 法 S 终 止 时 ,P 仍 是 一 图 表 。 

11.[20] 仅仅 给 定 算法 S 终 止 后 的 > 和 s 之 值 ,是 否 有 可 能 按 原来 的 条 件 恢复 P? 

12.[ M24 ] 如 果 反 复 地 使 用 算法 S, 删 去 其 形状 如 (n,n,,… ,nn ) 的 一 个 图 表 PP 的 所 有 元 
素 , 问 步骤 S3 被 执行 多 少 次 ?对 于 nl1+ n2+…++n = 的 所 有 形状 ,这 个 量 的 最 小 值 是 多 少 ? 

13. 1 M28 | 证 明定 理 C。 

14.[ M43 ] 找 出 定理 D c) 部 分 的 一 个 更 直接 的 证 明 。 

15.[M20] 多 重 集 合 {l'a,m*b,n'c| 有 多 少 具有 这 样 性 质 的 排列 , 即 当 从 左 到 右 读 这 个 排 
列 时 ,c 的 数目 决 不 超过 6b 的 数目 ,而 5 的 数目 决 不 超过 a 的 数目 (例如 ,aabcabbcaca 是 这 样 
一 个 排列 )? 

16.[M08 | 由 (39) 表 示 的 偏 序 可 以 用 多 少 种 方式 按 拓扑 排序 ? 

17.[ FM25] 设 

gz 13y) = ZIALZI + y, Ts, TI,) 十 
X2A( XI1 ,XT2 十 yy， ,Tn ) 十 “二 1A(CZ1 T2 Ty 十 y) 
证 明 
g(X1,T2 ,Tn;y) = (x + X22 二 十 浪士 (2 )y ) aC raz,) 

[提示 :多 项 式 g 是 齐 次 的 (所 有 的 项 都 有 相同 的 总 次 数 )。 而 且 , 它 是 对 诸 z 反对 称 的 (交换 x; 
和 zi 会 改变 g 的 符号 )]。 

18.[ HM30 |] 推广 习题 17, 当 mm 之 0 时 计算 和 式 

XTA(ZX1 + y, Tos Ta) + TIACTI TI + Ys, Ta) + 
+ XTA(xI, TX2," ,TX + y) 


。0602 。 
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19.[ M40] 求 填写 一 个 阵列 的 方式 种 数 的 公式 ,这 个 阵列 和 一 个 图 表 一 样 ,但 在 行 1 的 左边 
除去 两 个 方 格 ;例如 
n1 一 2 个 方 格 
n2 个 方 格 
73 个 方 格 











就 是 这 样 一 个 形状 ( 行 和 列 , 如 同 在 通常 的 图 表 中 那样 ,是 按 递增 顺序 排列 的 )。 
换 育 之 ,11,2,…,n1+… + n| 上 形状 为 
(Ts 
的 图 表 中 , 头 行 兼 有 元 素 1 和 元 素 2 者 有 和 多少? 
了 P20.[M24] 对 具有 元 素 j1,2,… ,zi 的 一 个 给 定 二 叉 树 的 节点 进行 标号 ,使 得 每 个 节点 的 标 
号 小 于 它 的 后 痪 的 标号 。 证 明 这 样 加 标号 的 方式 种 数 ,是 n! 除 以 “ 子 树 的 长 度 ”( 即 在 每 个 子 树 中 
节点 的 个 数 ) 的 乘积 。 例 如 ,对 


的 节点 进行 标号 的 方式 种 数 是 111111.4.1.$.1:2.3.1.1.1.1=10:9.8.7.6( 人 参考 定理 H)。 
21.[HM31](R.M.Thrall) 设 由 >za>…>mnw 确定 一 个 “ 移 位 图 表 ” 的 形状 ,其 中 行 i+1 从 





试 证 明 ,把 整数 1,2,… ,n= n+ nz+… 二 nn。 安排 到 形 如 (ni,n2,… ,7 ) 的 移 位 图 表 , 使 得 行 和 
列 都 有 递增 次 序 的 方式 数 ,是 n! 除 以 “广义 钧 子 长 度 ” 的 乘积 ;在 上 边 的 图 式 中 ,已 经 用 阴影 标 出 
对 应 于 1 行 2 列 方 格 的 长 度 为 11 的 广义 钩子 (阵列 左边 “ 倒 楼 梯 " 部 分 中 的 钧 子 , 其 形状 为 旋转 
90" 的 U 形 ,而 不 是 一 个 工 形 )。 因 此 共有 

171/12. 11.8.7.5.4:.1.:.9.6.5.3.2.3:.4.2:1:1 
种 方式 ,以 行 和 列 处 于 递增 次 序 来 填 满 这 个 形状 。 
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22.[ M39 ] 以 集合 11,2,…,NN} 的 元 素 填 人 形 为 (n,ns,… ,nn,) 的 一 个 阵列 ,并 且 允 许 重 
复 。 问 能 有 多 少 种 方式 ,使 得 行 是 非 减 的 ,而 列 是 严格 递增 的 ? 例如 简单 的 mx 行 图 形 (1,1,…,1) 
可 以 ( 、 } 种 方式 来 填 人 ;1 行 的 形状 ( 贡 ) 可 以 [” ”种 方式 填 人 ;图 形 (2,2) 可 以 
于 人 。 (2) 种 方式 壤 信 。 
>23.[ HM30](D. Andre) 把 数 11,2,…,n|} 放 置 到 nn 个 格子 的 阵列 





中 去 ,使 得 行 和 列 处 于 递增 的 次 序 , 问 有 多 少 种 方式 A,? 求生 成 函数 g(z)= A,z”/nl!。 
24.[ M28 ] 证 明 


ml mm 2 
> 。 A(Cq1，…，9g，) 二 
091+ 人 二 9 一 G1 dy 


0<9 9 Sm 
mm mm ni 

, A — 1,…,， 2 

1 (nt 1) 的 的 本 人 VEE 0) 


[提示 :证 明 A(kjJ+n 一 1,…,k,)= 二 人 (mm 一 +n 一 1 一 ,Mm 一 1) ;以 类 似 于 (38) 的 方式 分 解 一 个 
nxX(m 一 n++1) 的 图 表 ; 并 同 推导 (36) 中 那样 处 理 这 个 和 式 。] 

25.[ M20 ] 为 什么 (42) 是 对 合 的 生成 函数 ? 

26.[ FM21j 当 上 是 一 个 非 负 整 数 时 ,计算 | verp(- 2zx°/Vn)dr. 

27.[M24| 设 Q 是 {1,2,…,n|} 上 的 杨 氏 图 表 , 元 素 i 在 行 x; 和 列 c; 中 。 当 YY;<<r; 时 ,我 们 说 
i 在 信之 上 ”。 

a) 证 明 ; 对 于 1 二 i<n, 当 上 且 仅 当 cj 之 cj41 时 i 在 i+1 之 上 。 

b) 给 定 Q 使 得 (P,Q ) 对 应 于 排列 

1 2 … 1 

证 明 i 在 i+1 之 上 , 当 旦 仅 当 a;>a;i1( 因 此 只 要 知道 Q, 就 能 确定 排列 中 路 段 的 个 数 。 这 一 结 
果 属 于 M.P. Schiitzenberger)。 

c) 证 明 , 对 于 1 志 i<n, 在 Q 中 i 在 i+1 之 上 , 当 且 仅 当 在 Qs 中 i+1 是 在 i 之 上 。 

28.[ M43 ] 证 明 |1,2,… ,nj 的 一 个 随机 排列 的 最 长 递增 子 序列 的 平均 长 度 近似 于 2vVn( 其 
对 应 于 定理 A 中 行 1 的 平均 长 度 )。 


29.[ HM25 ] 试 证 明 nn 个 元 素 的 一 个 随机 排列 ,有 长 度 实 ! 的 一 个 递增 子 序列 的 概率 之 | ” ) 


nm—(n*—n) 
| 





/!。 当 /=evn+O(1l) 时 ,这 个 概率 是 O(1/Vz); 而 当 ! 上 =3Vnc=6n3-6 时 ,这 个 概率 是 
Ol(exp( -cn))。 
. od4 a 
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30.[ M41 ] (M.P.Schiitzenberger) 证 明 从 已 到 Ps 所 进行 的 操作 ,是 应 用 于 任何 有 限 偏 序 集合 
(而 不 仅 仪 是 图 表 ) 的 一 个 操作 的 特殊 情况 :用 整数 {1,2,…,n| 来 对 一 个 偏 序 集 的 元 素 进 行 标号 ， 
使 得 偏 序 同 标号 相 一 致 。 用 类 似 于 算法 S 的 方式 移动 其 它 标号 ,同时 逐次 地 删 去 标号 1,2,… ,并 
且 把 1,2,… 放 置 在 空 了 的 位 置 上 , 试 求 类 似 于 (26) 的 一 个 对 偶 标 号 。 证 明 当 以 相反 的 数值 次 序 
重复 对 偶 标 号 时 ,这 个 操作 产生 原来 的 标号 。 另 外 请 剖析 这 个 操作 的 其 它 性 质 。 
31.[DM30] 设 x, 为 在 一 个 n Xn 的 棋盘 上 ,放置 ”个 互 不 冲突 的 车 的 方式 数 ,其 中 每 种 放 
置 通过 两 个 对 角 线 的 反射 均 保持 不 变 。 于 是 有 xs = 6( 对 合 被 要 求 仅 关 于 一 个 对 角 线 是 对 称 的 。 
习题 5.1.3-19 考虑 了 一 个 相关 的 问题 )。 试 求 zx, 的 渐 近 特性 。 
32.[ HM21 ] 试 证 明 当 X 为 有 均值 1 和 方差 1 的 标准 离 差 时 ,1, 是 X” 的 期 望 值 。 
33.[ M25 ] (O.H. Mitchel,1881) 真 或 假 : 当 a ,a;,…,a, 是 整数 时 ,Al(al,as,…,an)/A(1,， 
2 mW 是 二 个 整数 。 
34.[25](T.Nakayama,1940) 试 证 明 , 如 果 一 个 图 表 形 包含 长 度 为 ab 的 一 个 钩子 , 则 它 也 
包含 长 度 为 a 的 一 个 钩子 。 
35.[30」] (A.P. Hillman 和 R.M.Grassl,1976) 当 行 i 有 ,个 格子 , 列 ;7 有 ny 个 格子 时 ,如 果 
2 p=m 且 
pi 之 “之 bin.», P1ji 之 之 pus， 对 于 Ls 
则 在 一 个 图 表 形 中 对 非 负 整数 p; 的 一 个 安排 , 称 做 的 一 个 平面 分 划 。 而 如 果 代 之 以 
六 Pin 六 < pwj， 对 于 I 
则 称 它 为 北平 面 分 划 。 
考虑 下 列 算法 , 它 实 现 对 于 一 个 给 定形 状 的 道 平面 分 划 , 并 且 构 造 有 相同 形状 的 数 qi 的 另 一 
个 数组 
Gl1.[ 初 始 化 ] 对 于 1 过 j 二 nn; 和 1 二 i 之 n1, 置 9;; 呈 0。 然 后 置 一 1。 
G2.[ 求 非 零 的 格子 ] 如 果 pw >0, 置 i ,kj ,并 继续 步骤 G3。 否 则 ,如 果 j< 1, 则 
增加 1 并 重复 此 步骤 。 否 则 停止 (p 数组 现在 为 零 )。 
G3.[P 减少 ] p; 减 1。 
G4.[ 向 上 或 向 右 移动 ] 如 果 ;i>1, 且 pi; yx>pa; 则 i1 减 1, 并 返回 G3。 否 则 如 果 有 <n;, 则 
& 加工 并 返回 G3。 
G5.[ 增 加 g] gj, 加 1 并 返回 G2。 | 


通过 设计 从 诸 g 重新 计算 诸 5 的 算法 , 试 证 明 ,这 一 构造 定义 mx 的 逆 平 面 分 划 和 方程 
i 克 而 

的 解 之 间 的 一 一 对 应 ,其 中 数 h; 是 这 个 形状 的 钓 长 。 

36.[HM27] (R.P.Stanley,1971) (a) 试 证 明 ,在 一 个 给 定 的 形状 中 ,2 的 逆 平 面 分 划 的 个 数 
为 [z”]1/[] (1 z%), 其 中 数 属 是 这 个 形状 的 钩 长 。(b) 由 这 个 结果 推导 定理 H[ 案 示 : 当 疡 一 
co 时 什么 是 诸 分 划 的 渐 近 个 数 ]。 

37.[ M20] (P.A.MacMahon,1912) 什么 是 所 有 平面 分 划 的 生成 函数 ( 当 图 表 的 形状 为 无 限 
时 ,z” 的 系数 应 为 m 的 平面 分 划 的 总 数 )? 

38. [M30 ] (Green,Nijenhuis 及 Wilf,1979) 通过 令 有 癌 边 从 每 个 格子 通 到 它 钓 子 中 的 其 它 格 
子 ,在 任何 给 定 的 图 表 形 状 的 格子 TT 上 ,我 们 可 以 构造 一 个 有 向 无 循环 的 图 ;这 样 格子 (i,j) 的 出 
度 (Outdegree) 将 为 di 三 h; 一 1, 其 中 hh; 为 钩子 的 长 度 。 假设 通过 选择 一 个 随机 的 起 始 格 子 (1i,j) 
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并 且 随 机 选择 进一步 的 有 向 边 ,我 们 在 这 个 有 向 图 中 生成 一 个 随机 通路 ,直到 不 再 有 出 口 的 一 个 
角落 格子 为 止 。 每 个 随机 选择 被 一 致 地 作成 : 
a) 令 (a,b) 是 本 的 一 个 角落 格子 ,并 设 1= |io,…,il 和 J= 141jo,… 放 | 是 满足 io<…<ii=a 


和 ji <…< ji = 六 的 行 和 列 的 集合 。 这 个 有 向 图 包含 “”“) 条 通路 ,其 行 和 列 的 集合 分 别 为 1 和 


]; 令 PCT,J) 为 随机 通路 是 这 些 通路 之 一 的 概率 。 试 证 明 
P(I1,J]) = li(ndi odi oda "do,) 

其 中 n=|T|。 

b) 设 FT) = n!/11h;;。 试 证 明 随 机 通路 在 角落 (a,b) 处 结束 的 概率 为 f(T\ i(a,65)1)/ 
f(T)。 

co) 证明 ,6) 的 结果 证 明了 定理 日 ,也 给 了 我 们 一 个 方法 ,来 生成 形状 T 的 一 个 随机 图 表 , 而 且 
所 有 ACT) 个 图 表 都 同样 可 能 。 

39.[M38] (1.M.Pak 和 A. V. Stoyanovskii,1992) 设 PP 是 整数 |1,…,n| 的 任何 排列 所 填 满 
的 形状 为 (nn,… ,nn ) 的 数组 ,其 中 又 =n 十 …+n,;,。 下 列 的 过 程 类 似 于 5.2.3 小 节 的 “上 移 ” 算 
法 ,可 以 用 来 把 PP 转换 为 一 个 图 表 。 它 也 定义 了 一 个 同样 形状 的 数组 Q ,可 以 用 来 提供 定理 
的 一 个 组 合 证 明 。 

Pl1.[ 对 (i,j) 进 行 循环 ] 以 词典 排序 的 逆序 ,对 数组 的 所 有 格子 (i,j) 实 施 步 骤 P2 和 P3( 即 

从 底 向 上 ,县 在 每 行 从 右 向 左 ) ;然后 停止 。 

P2[ 在 (; 7) 处 固定 P] 置 K<-P; ,并 且 实 施 算法 S'( 见 下 文 )。 

P3[ 调 整 Q] 对 于 jk<s, 管 Qi 一 Qicri)+1, 并 置 Qiei-ro | 
这 里 算法 S 和 Schiitzenberger 的 算法 S 相 同 ,只 是 步骤 SL 和 S2 被 稍微 推广 ， 

S1'[ 初 始 化 ] 置 /一 i, s 一 j。 

S2 [完成 没有 ?] 如 果 天 过 Pu ,yw 和 KK 三 P41), 置 PK 并 终止 。 

(算法 S 实 质 上 是 ;=1j=1,K=oco 的 特殊 情况 。) 

例如 ,算法 P 把 形 如 (3,3,2) 的 一 个 特殊 数组 以 下 列 方式 弄 直 , 如 果 我 们 在 步骤 P2 的 开始 处 
来 观察 数组 P 和 Q 的 内 容 ,而 且 以 P; 为 粗 体 的 字体 : 














了 7185171815| 7|815|171815|12|815| 7281s|17|814|17|314 

P 一 [6 4 [6464 全 434 3 和 3 5 58 
3 | 2 | 216| |216 1216| i216 
jo 

Q= -元 国人 人 0 -40 oo 
ol Lo 0 Do Do Do 








最 后 的 结果 是 

617| 

a) 如 果 P 只 不 过 是 一 个 1xn 的 数组 ,算法 P 把 它 排序 成 为 1“… [zj。 试 说 明 在 这 种 情况 下 
Q 数组 将 包含 什么 ? 

b) 如 果 P 忆 是 n x1 而 不 是 1xnn, 试 回答 相同 的 问题 。 

c) 证 明 , 在 一 般 情况 下 ,我 们 将 有 
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"5.1 排列 的 组 合 性 质 


一 b, 委 Qi 过 7 

其 中 5b; 是 (i,j) 之 下 的 格子 数 ,而 x; 是 右边 的 格子 数 。 于 是 ,对 于 Q; 可 能 的 值 的 个 数 恰 是 h;, 即 
第 (7 个 钩子 的 大 小 。 

d) 如 果 我 们 能 够 证 明 算 法 已 ,定义 了 以 n! 种 方法 填 和 人 原来 的 形状 ,和 输出 数组 (P,Q) 的 对 偶 
之 间 的 一 一 对 应 (其 中 P 是 一 个 图 表 , Q 的 元 素 满足 c) 的 条 件 ) ,那么 就 可 以 建设 性 地 证 明定 理 
H。 因 此 我 们 要 求 算 法 P 的 一 个 道 。 对 于 什么 样 的 初始 排列 ,算法 P 产 生 2x2 的 数组 Q = 

0 一 

0 ). 

e) 什 么 样 的 初始 排列 ,根据 算法 P 可 转换 成 下 列 数组 ? 


sp 
四 








人 根据 给 定数 组 (P,Q) 的 任何 对 偶 ( 其 中 已 是 一 个 图 表 , Q 满足 c) 的 条 件 ) , 试 设计 算法 了 的 
反 序 算法 [提示 :构造 一 棵 有 向 树 ,其 项 点 是 格子 (i,j), 并 有 有 问 边 
(i,j) > (i,;— 1) 如 果 Picj-1) > Pi yj 
(i,7)—> (1-1,7) 如 时 Pi 1) < Py); 
在 e) 的 例子 中 ,我们 有 树 


这 个 树 的 诸 通路 显示 了 反 序 算法 P 的 键 码 ]。 
40.[DM43] 假设 通过 逐次 地 以 这 样 一 个 方式 来 放置 数 1,2,…,n, 即 当 放 置 一 个 新 数 时 ,每 


二 元吉 : 本 :全 :二 的 概率 被 得 到 。 

试 证 明 ,对 于 O 志 过 m ,得 到 的 形状 (n,n;,…,n,) 将 以 很 高 的 概率 有 m 守 V6n 和 Vk + 
V NHN Mo 

41.[25] (图 书馆 中 的 无 序 问题 ) 粗 心 的 读者 经 常 把 书架 上 的 书 放 回 到 错误 的 位 置 上 。 计 算 
一 个 图 书馆 中 存在 的 无 序数 量 的 一 个 方式 是 ,考虑 在 把 所 有 的 图 书 恢复 到 正确 的 位 置 之 前 ,需要 
把 一 本 书 从 一 个 位 置 取 出 并 且 插 入 到 另 一 个 位 置 的 极 小 次 数 。 

于 是 设 x = ala,…a, 是 11,2,… ,nn | 的 一 个 排列 ,一 个 “ 删 去 -插入 "操作 对 于 茶 个 i 和 j 把 x 
变 成 

gaianvaaara 或 araaar Maiana, 
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令 dis(7) 是 将 把 x 排 成 有 序 的 “ 删 去 -插入 ”操作 的 极 小 次 数 。 能 否 借 助 于 x 的 较 简 单 的 特征 来 
表达 dis(xx)? 

P42.[30]j( 基 因 组 中 的 无 序 问 题 ) Lobelia fervens DNA 有 以 8g7g1g2g455g838gC 的 序列 出 现 的 
基因 ,其 中 g 代表 gy 从 左 至 右 的 反射 ;同样 的 基因 出 现在 烟草 植物 中 ,但 次 序 为 
S1828384858687o 证 明 为 了 从 g1g28384858687 得 到 89g18284858386 ,对 于 子 串 需 要 5 次 “ 触 
发 "操作 ( 当 a,8 和 7 为 串 时 ,一 个 触发 把 aBy 变 成 By )。 

43.[35] 继续 上 一 题 , 试 证 明 ,为 了 对 glg?…8g, 的 任何 重新 排列 (Rearrangement) 进 行 排序 ， 
最 多 需要 n+ 1 次 触发 。 对 于 所 有 n>3, 试 构造 需要 n+1 次 触发 的 例子 。 

44.[ M371 如 果 所 有 2”n! 个 基因 组 的 重 排 都 是 同样 可 能 的 , 试 证 明 , 为 对 ”个 基因 的 一 个 随 
机 排列 进行 排序 ,所 要 求 触 发 的 平均 数 大 于 n 一 日,。 


5.2 内 部 排 抒 


让 我 们 通过 一 项 小 实验 ,来 开始 有 关 好 的 “排序 者 队伍 ”的 讨论 。 你 将 如 何 解 决 
下 面 的 程序 设计 问题 ? 

“存储 单元 R+1,R+2,R+3,R+4 和 RR+5 包 含 5 个 数 , 试 写 出 一 个 计算 机 
程序 ,使 得 当 必 要 时 , 它 重 新 把 这 些 数 排 成 为 递增 次 序 的 (如 果 你 已 经 熟悉 某 些 排 
序 方 法 ,就 请 你 尽量 暂时 忘掉 它们 ;想像 你 头 一 次 着 手 解决 这 个 问题 ,没有 任何 关于 
怎样 做 的 预先 的 知识 。) 

在 证 一 芗 入 入 阅 六 灾 之 前 ， 要 求 你 构 疙 一 个 这 个 问题 的 解 。 


在 解决 上 述 这 个 具有 挑战 性 问题 时 所 花费 的 时 间 ， 将 在 你 阅读 这 一 _ 章 时 获得 补 
偿 。 可 能 ,你 的 解 是 下 列 类 型 之 一 : 

A. 一 个 播 入 排序 ”逐个 考察 诸 项 ,每 一 个 新 的 项 被 插 人 到 相对 于 以 前 已 排 好 
序 的 诸 项 的 适当 位 置 上 (这 是 许多 玩 桥牌 者 每 抓 一 张 牌 时 ,对 他 们 手中 的 牌 进行 排 
序 的 一 种 方式 )。 

B. 一 个 交换 排序 如 果 发 现 某 两 项 次 序 颠 倒 , 则 交换 它们 。 重 复 这 一 过 程 直 
到 不 需要 再 作 进 一 步 的 交换 为 止 。 

C. 一 个 选择 排序 ”首先 找到 最 小 的 (或 最 大 的 ) 项 ,并 设法 把 它 同 余 下 的 分 开 
来 ;然后 选择 下 一 个 最 小 的 (或 最 大 的 ) ,等 等 。 

D. 一 个 枚 举 排 序 ”每 个 项 都 同 其 它 项 进行 比较 ;一 个 项 的 最 后 位 置 由 它 超过 
的 键 码 (Key) 的 个 数 确定 。 

E. 一 个 专用 排序 ”如同 在 本 问题 中 所 述 的 那样 , 它 对 5 个 元 素 进行 排序 ,可 能 
工作 得 很 好 ,但 却 不 能 容易 地 推广 到 较 大 的 项 数 。 

F. 一 种 懒散 的 态度 ”在 这 种 态度 下 你 忽略 了 上 面 的 建议 ,并 且 决 定 全 然 不 去 
解决 这 个 问题 。 对 不 起 。 现 在 你 已 经 读 得 太 远 了 ,而且 已 经 错过 了 时 机 。 

G. 一 项 新 的 超级 排序 技术 ” 它 是 对 已 知 方法 的 明显 改进 (如 果 有 ,请 立刻 通知 
作者 )。 
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如 果 这 个 问题 比如 说 有 1000 项 ,而 不 只 是 5 项 ,你 可 能 已 经 发 现 了 将 在 后 边 述 
及 的 更 为 精巧 的 技术 。 但 无 论 如 何 , 当 着 手 解 决 一 个 新 间 题 时 , 先 找 茶 些 相 当 明 显 
的 解决 方法 ,然后 再 试图 来 改进 它 ,往往 是 明智 的 。 上 述 的 AB 和 C 引 出 了 几 类 重 
要 的 排序 技术 ,它们 是 这 些 简单 想法 的 深化 。 

目前 已 经 发 明了 许多 不 同 的 排序 算法 ,我 们 将 在 本 书 讨 论 其 中 大 约 25 个 算法 。 
这 样 颇 使 人 惊讶 的 众多 的 方法 ,实际 上 还 只 是 迄今 已 经 想 出 的 算法 的 一 小 部 分 ;在 
我 们 的 讨论 中 ,将 略 去 许多 现在 已 被 废弃 的 方法 ,或 者 仅仅 简单 地 提 有 玉 它 们 。 为 什 
么 会 有 这 么 多 的 排序 方法 呢 ? 在 计算 机 的 程序 设计 中 , 常 有 ”为 什么 会 有 这 样 多 的 
Zz 方法 呢 ?” 的 问题 ,其 中 x 就 是 某 个 问题 的 集合 。 这 个 问题 的 答案 是 :每 种 方法 都 
有 它 的 优点 和 缺点 ,对 于 某 些 数据 和 硬件 配置 来 说 , 它 就 有 可 能 超过 其 它 的 方法 。 
可 惜 ,还 不 知道 “最 好 的 "排序 方法 ;目前 许多 最 好 的 方法 ,都 是 针对 特定 的 机 器 , 根 
据 特 定 的 目的 ,对 特定 对 象 进行 排序 所 得 到 的 。 用 Rudyard Kipling 的 话说 :“ 有 69 
种 进行 部 落 安 置 的 方式 ,而 且 它 们 每 一 种 都 是 对 的 。” 

一 个 好 的 想法 是 学 习 每 种 排序 方法 , 它 能 帮助 你 具体 的 应 用 做 出 明智 的 选择 。 
幸而 ,学 习 这 些 算法 并 不 是 一 项 艰难 的 任务 ,因为 它们 都 以 有 趣 的 方式 相互 关联 着 。 

在 本 章 开 始 时 ,已 定义 了 将 在 排序 研究 中 使 用 的 基本 术士 和 符号 :记录 

RI, R,,…, Rw (1) 
有 待 按 其 键 码 Ki,K,,…, Kw 的 非 减 次 序 进行 排序 ,实质 上 要 求 找 出 一 个 排列 
PpP(1)p(2)…p(NN), 使 得 
K ,1) < K ,2) 委 … 私 K,(N) (2) 
在 本 节 中 ,我们 讨论 内 部 排序 。 此 时 ,有 待 排序 的 记录 个 数 足 够 小 ,以 致 整个 过 程 都 
能 在 一 台 计 算 机 的 高 速 存储 器 中 实现 。 

在 某 些 情况 下 ,会 要 求 在 存储 右 中 对 这 些 记录 物理 地 重新 排列 ,使 得 它们 的 键 
码 按 次 序 排列 。 但 在 另外 的 情况 下 , 则 可 能 只 要 指明 这 个 排列 的 某 个 辅助 表 就 够 
了 。 如 果 每 个 记录 和 /或 键 码 要 占用 相当 多 的 计算 机 存储 颖 , 则 构造 一 个 新 的 指 疝 
记录 的 链接 地 址 表 , 并 处 理 这 些 链 接地 址 ,而 不 是 到 处 移动 庞大 的 记录 ,通常 更 好 
些 。 这 种 方法 称 为 地 址 表 排 序 ( 见 图 6)。 如 果 键 码 很 短 , 但 是 记录 的 附属 信息 很 
长 , 则 为 了 获得 更 高 的 速度 ,这 个 键 码 即 可 用 作 链 接地 址 ,这 就 是 所 谓 键 码 排序 。 男 
一 种 排序 方案 利用 了 包括 在 每 个 记录 中 的 一 个 辅助 链接 字段 ;链接 的 方式 是 使 这 些 
记录 最 终 被 链接 在 一 起 以 形成 一 个 直接 的 线性 表 , 每 个 链接 指 同 下 一 个 记录 ,这 就 
是 所 谓 表 排序 ( 见 图 7)。 

在 用 地 址 表 方 法 或 表 方 法 进行 排序 之 后 , 诸 记 录 可 像 所 希望 的 那样 ,重新 排 成 
递增 的 顺序 。 习 题 10 和 12 讨论 了 做 这 件 事 的 有 趣 方法 ,只 要 求 有 足够 容纳 一 个 记 
录 的 附加 存储 空间 即 可 ;或 者 ,可 以 简单 地 把 这 些 记录 都 移 到 一 个 能 容纳 所 有 记录 
的 新 区 域 。 后 一 方法 通常 比 头 一 个 方法 快 两 倍 , 但 它 几 乎 要 求 两 倍 的 存储 空间 。 在 
许多 应 用 中 ,全 然 不 需要 移动 记录 ,因为 对 于 随后 的 寻 址 操作 而 言 ,使 用 链接 字段 通 
常 已 足够 了 。 
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图 6 地 址 表 排序 图 7 表 排 序 


我 们 将 通过 4 个 方面 来 说 明 将 要 深入 讨论 的 所 有 排序 方法 , 即 

a) 算 法 的 一 一 个 更 语 语言 描述 : 

b) 一 个 框图 ; 

c) 一 个 MIX 程序 ; 

d) 一 个 排序 方法 的 示例 , 它 应 用 于 某 个 16 个 数 的 集合 。 

为 了 方便 起 见 ,MIX 程序 通常 都 假定 键 码 是 数值 的 ,并 且 能 放 到 一 个 单字 中 去 ; 
有 时 ,甚至 把 键 码 限制 为 一 个 字 的 一 部 分 。 次 序 关 系 “< "将 是 通常 的 算术 次 序 ; 记 
录 将 只 由 键 码 组 成 ,而 没有 附属 的 信息 。 这 些 假定 使 得 程序 更 短 和 更 容易 理解 。 读 
者 应 当 发 现 , 使 用 地 址 表 排 序 或 表 排 序 ,能 很 容易 地 把 程序 改 成 一 般 通 用 的 情况 。 
对 每 个 排序 算法 运行 时 间 的 分 析 ,将 通过 MIX 程序 进行 。 

通过 计数 进行 排序 ”作为 研究 内 部 排序 方法 的 一 个 简单 示例 ,考虑 在 本 节 开 头 
提出 的 “计数 "思想 。 这 个 简单 的 方法 是 以 这 样 一 个 思 想 为 基础 的 即 在 最 后 排 好 应 
的 序列 中 ,第 j 个 键 码 恰恰 大 于 () 一 1) 个 其 它 键 码 。 换 言 之 ,如 果 知 道 菜 个 键 码 确 
实 超过 27 个 其 它 键 码 ,而且 没有 两 个 键 码 相同 , 则 在 排序 之 后 对 应 的 记录 应 当 进入 
位 置 28。 所 以 ,这 个 思想 是 比较 每 对 键 码 ,计算 有 多 少 个 键 码 小 于 每 一 个 特定 的 键 
码 。 

进行 这 些 比较 的 明显 方法 是 

对 于 1 过 i 过 N( 对 于 1 过 ;7 过 N( 比 较 K; 和 K,)) 
但 容易 看 出 ,这 些 比 较 中 有 一 半 以 上 是 多 余 的 ,因为 没有 必要 把 一 个 键 码 同 它 自己 
进行 比较 ,也 没有 必要 比较 K。 和 kK， 然后 比较 K, 和 kK。 我 们 只 需要 比较 
对 于 1<i 二 N( 对 于 1 过 7 < i 比较 K; 和 KK;)) 

因此 导出 了 下 列 算法 。 

算法 C( 比 较 计数 ) ”本 算法 通过 维护 一 张 辅助 表 COUNT[1],…,COUNT[N], 对 
于 小 于 一 个 给 定 键 码 的 键 码 个 数 进行 计数 ,来 实现 用 键 码 Ki1,…, Kw 对 记录 RI， 

RN es 算法 结束 时 ,COUNTL) ] +1 确定 记录 R; 的 最 后 位 置 。 

1.[ 清 空 COUNT] 把 COUNT[1] 至 COUNT[N ] 都 置 成 0。 
6 70 . 


5.2 内 部 排序 


C2.[ 对 i 进行 循环 | 对 i=N,N 一 1,…,2 实施 步骤 C3; 然 后 结束 此 算法 。 

C3.[ 对 ; 进行 循环 ] 对 j=i 一 1,i 一 2,…,1 实施 步骤 C4。 

C4.[ 比 较 K;:K;] 如 果 K;<K;, 则 CouNT[j] 加 1, 否 则 CouNTLij] 加 1。| 

注意 ,此 算法 不 涉及 记录 的 移动 。 它 类 似 于 地 址 表 排 序 ,因为 COUNT 表 确 定 了 
这 些 记 录 最 后 的 安排 ;但 是 由 于 COUNT[L;] 告 诉 我 们 往 何 处 移动 Rj ,而 不 是 指出 哪 一 
个 记录 应 当 被 移动 到 R; 的 位 置 , 故 它 与 地 址 表 排 序 略 有 不 同 (因此 在 COUNT 表 中 确 
定 了 排列 p(1),…,pP(N) 的 送 , 见 5.1.1 小节)。 


\ N>i>]l >/ 之 1 


C2. 对 i 进行 循环 [| C3. 对 /进行 循环 
1 一 1] | 








图 8 算法 C; 比 较 计 数 
通过 把 比较 计数 算法 应 用 于 作者 1963 年 3 月 19 日 随机 地 选择 的 16 个 数 上 ， 
表 1 说 明了 这 个 算法 的 典型 特性 。 同 样 的 16 个 数 将 用 于 说 明 我 们 后 面 将 要 讨论 的 
绝 大 多 数 方法 。 


表 1 计数 排序 (算法 C) 


503 087 S12 061 908 170 897 273 653 426 154 509 612 677 765 703 


COUNT(i= N -1): 
COUNT(i= N — 2): 
COUNT(i= N - 3): 
COUNT(i=N -4) 
COUNT(i= N - 5): 


.+ 


在 描述 这 个 算法 以 前 所 进行 的 讨论 中 ,我 们 轻率 地 假定 没有 任何 两 个 键 码 相 
等 。 这 个 假定 有 潜在 的 危险 ,因为 如 果 相 等 的 键 码 对 应 于 相等 的 COUNT, 则 这 些 记录 
的 最 后 重新 安排 将 是 十 分 复杂 的 。 幸 而 ,如 同 习 题 2 所 示 , 不 管 出 现 多 少 相 等 的 键 
码 ,算法 C 仍 能 给 出 正确 的 结果 。 

程序 C( 比较 计 数 ) 以 下 是 算法 C 的 MIX 实现。 假定 对 于 lj 三 NN,R; 存 于 
单元 INPUT+ ; 中 ,而 COUNT[ ;] 存 于 单元 COUNT+ 7 中 ;rl1 夺 i;r12 寺 j;rA 三 K, 三 R,; 
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TX=COUNT|[ 7 |。 


01 
02 
03 
04 
05 
06 
07 


START 


2H 


3H 


A4H 


SH 


1H 


J2P 


C1. 游 空 COUNT 


COUNT[ i ]<—0 


N 之 ;>0 
C2. 对 ;运行 短 环 


C4. 比较 K;: Kj 
如 果 K,; 宇 K; 则 转移 
COUNT[ 7 

+1 


>COUNT[ j] 


COUNT| 71 ]<—COUNT[ 7]+1 


C3. 对; 循环 


N 宇 i>j>0 
| 


这 个 程序 的 运行 时 间 是 13N+6A +5B 一 4 个 单位 ,其 中 N 是 记录 个 数 ;A 是 
从 N 个 对 象 的 集合 中 选择 两 个 的 数目 , 即 | > } = (CN - N)/2;B 是 满足 i<i 且 KK 


> K; 的 下 标 对 偶 的 数目 。 因 此 ,B 是 排列 K|,… ,Kn 的 反 序 数 ;这 是 在 5.1.1 小 节 
被 深 入 分 析 过 的 量 , 在 等 式 5.1.1-(12) 和 5.1.1-(13) 中 ,我 们 发 现 对 于 随机 次 序 下 


的 不 相等 的 键 码 ,我 们 有 


B = (minO0,ave(N’*— N)/4,max(N’-— N)/2,devv N(N -1)(N+2.5)/6) 
因此 程序 C 要 求 的 时 间 单 位 在 3N*+10N--4 和 5.5N?+7.5N 一 4 之 间 , 而 平均 运 
行 时 间 在 这 两 个 极 值 的 正中 间 。 例 如 , 表 1 中 的 数据 有 N=16,A=120,B=41, 所 
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以 程序 C 将 用 1129 个 单位 时 间 进 行 排序 。 关 于 程序 C 的 一 个 改 型 ,请 看 习题 9 , 它 
有 稍微 不 同 的 时 间 特 征 。 

在 这 个 运行 时 间 中 占 支配 地 位 的 因子 N 说 明 , 当 N 很 大 时 ,算法 C 不 是 一 个 
有 效 的 方法 。 记 录 数 加 1 倍 , 就 会 使 运行 时 间 增 加 3 倍 。 由 于 这 个 方法 要 求 比较 所 
有 不 同 的 键 码 对 偶 (K;,K;), 因 此 没有 显而易见 的 方法 来 使 它 搜 脱 对 于 入 的 依赖 
性 ,尽管 在 这 一 章 稍 后 将 看 到 ,利用 “其 它 "技术 ,排序 的 最 坏 情 况 的 运行 时 间 可 以 减 
少 到 NlogN。 我 们 对 于 算法 C 的 主要 兴趣 在 于 它 的 简便 性 , 而 不 在 于 它 的 速度 ; 算 
法 C 作为 一 个 示例 ,表明 了 将 要 描述 的 更 为 复杂 (和 更 为 有 效 ) 的 方法 的 风格 。 

通过 计数 进行 排序 ,还 有 另外 一 个 方法 ,从 有 效 性 的 观点 看 , 它 是 十 分 重要 的 ; 
它 主 要 应 用 于 有 许多 相同 的 键 码 出 现 , 且 所 有 的 键 码 都 落 和 人 范围 三 Kj 三 wv 的 情 
况 ,其 中 (w 一 ) 很 小 。 这 些 假定 看 来 是 十 分 严格 的 限制 ,但 是 事实 上 将 看 到 这 一 思 
想 有 不 少 的 应 用 。 例 如 ,如 果 把 这 个 算法 应 用 于 键 码 的 头 几 位 数字 , 而 不 是 整个 键 
码 , 则 这 个 文件 将 被 部 分 地 排序 ,而 且 完 成 这 项 任务 将 相当 的 简单 。 

为 了 了 解 其 中 蕴涵 的 原理 ,假设 所 有 的 键 码 位 于 1 和 100 之 间 。 当 第 一 饥 扫 摘 
这 个 文件 时 ,可 以 统计 有 多 少 个 1,2,…,100 出 现 ;而 在 第 二 遍 扫 描 时 ,就 可 以 把 这 
些 记录 移 到 输出 区 域 中 的 适当 位 置 。 下 列 算 法 给 出 此 过 程 的 完整 细节 。 

算法 D( 分 布 计 数 ) 假定 所 有 键 码 都 是 x 三 K; 志 wv 范围 中 的 整数 ,其 中 1] 三 
N。 本 算法 利用 一 张 辅助 表 COUNT[ x ] ,… ,COUNT[ vj 对 记录 R1,… ,Rw 进行 排序 。 
算法 结束 时 ,这 些 记 录 以 所 希望 的 次 序 移 到 一 个 输出 区 域 S1,…, Sw 中 去 。 

D1. [清空 COUNT] 把 COUNT[w |] 至 COUNT[w] 全 部 清 成 0。 

D2. [对 j 进行 循环 ] 对 于 1 志 j 三 NN 实施 步骤 D3; 然 后 转 到 D4。 

D3. [COUNT[ K;] 增 值 ] COUNTI K; ] 的 值 增 1。 

D4.[ 累 加 ] (这 时 COUNT[ i] 是 等 于 i 的 键 码 的 个 数 。) 对 于 1=w+1,wu+2,， 

… ,Vv, 置 COUNT[ i ]<-COUNT[ i |] +COUNTILi1 一 1]。 
D5.[ 对 j 进行 循环 ] (这 时 COUNT[ i] 是 小 于 或 等 于 i 的 键 码 的 个 数 ,特别 是 
COUNT[v]=N。) 对 j=N,N 一 1,…,1 实施 步骤 D6; 然后 终止 这 个 算法 。 
D6.[ 输 出 Ri] 置 i<-COUNT[ Kj;],S; 一 R) 及 COUNT[LK;]<i-1。 | 


| N 盖 /之 ! 
D1. 清 空 COUNT 





图 9 算法 D: 分 布 计数 
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这 个 算法 的 一 个 例子 在 习题 6 中 讨论 ;在 习题 9 中 有 一 个 MIX 程序 。 当 范围 -w 
很 小 时 ,这 个 排序 过 程 是 非常 快 的 。 

如 同 算法 C 这 样 通过 比较 计数 进行 的 排序 ,首先 是 由 下 . H. Friend 提出 的 
[JACM 3(1956) ,152] ,尽管 他 没有 宣称 这 是 他 自己 的 发 明 。 像 在 算法 D 中 那样 的 
分 布 排序 ,是 由 H.Seward 于 1954 年 首先 提出 的 ,他 把 这 个 方法 同 后 边 将 讨论 的 基 
数 排序 技术 一 起 使 用 ( 见 5.2.5 小 节 ) ;该 方法 W. Feurzeig 也 曾 以 “Mathsort” 为 名 发 
表 过 , 见 CACM 3(1960) ,601。 


习题 


1.[15] 如 果 在 步骤 C2 中 ,i 从 2 升 到 NN ,而 不 是 从 NN 降 到 2, 算 法 C 是 否 仍 然 有 效 ? 如 果 在 
步 双 C3 中 ;从 1 升 到 i 一 1 又 将 如 何 呢 ? 

2.[21] 证 明 当 出 现 相 等 的 键 码 时 ,算法 C 仍 将 正确 地 工作 。 如 果 K,= K, 上 且 j<i, 则 Ri; 在 
最 后 的 编 序 下 是 在 R; 之 前 还 是 之 后 出 现 ? 

3.[21] 如 果 在 步骤 C4 中 的 比较 从 “天 ;< K;” 变 成 为 “K,; 志 KK,”, 则 算法 C 是 否 仍 将 正确 工 
作 ? 

4.[16] 写 出 一 个 MIX 程序 , 它 “ 完 成 "由 程序 C 着 手 的 排序 ;你 的 程序 应 把 这 些 键 码 以 递增 的 
次 序 传 送 到 单元 OUTPUT+ 1 至 OUTPUT +N。 你 的 程序 需要 多 少时 间 ? 

5.[22」1 下 列 一 组 修改 是 否 改进 程序 C? 

新 添 一 行 08a:INCX 0 ,2 

改变 行 10 :JGE SF 

改变 行 14:DECX 1 

删 去 行 15。 

6.[18 」 用 手 算 来 模仿 算法 D, 说 明 当 对 16 个 记录 5T,0C,5U,00,9. ,1N,8S,2R,6R,4R,1G,5L， 
6T,6I,70,7N 进行 排序 时 的 中 间 结 果 。 这 里 数字 是 键 码 ,而 字母 信息 附属 于 这 些 记 录 。 

7.[13] 算法 D 是 一 个 “稳定 的 ”排序 方法 吗 ? 

8.L15] 如 果 在 步骤 D5 中 ) 从 1 升 到 N, 而 不 是 从 N 降 到 1, 则 算法 D 是 否 仍 将 正确 地 工 
作 ? 

9.[23] 为 算法 D 写 出 一 个 类 似 程序 C 和 习题 4 的 MIX 程序 来 。 作 为 N 和 (w 一) 的 函数 ， 
你 的 程序 的 运行 时 间 等 于 多 少 ? 

10.125] 试 设计 一 个 有 效 的 算法 , 当 给 定 Ri1,…, Rw 的 值 以 及 11,…,NN| 的 排列 p(1),…， 
P(N) 后 , 它 分 别 以 (Ro),… ,Rcn)) 代 符 NN 个 量 (R,,… ,RN)。 试 避免 使 用 过 多 的 存储 空间 (如 
果 和 希望 在 地 址 表 排序 之 后 ,在 存储 器 中 重新 安排 这 些 记 录 ,而 不 要 求 存 储 2N 个 记录 的 空间 ,就 会 
出 现 这 个 问题 )。 

11.[| M27] 为 习题 10 的 算法 写 出 一 个 MIX 程序 ,并 分 析 它 的 效率 。 

> 12.125] 试 设计 一 个 有 效 的 算法 , 它 适合 于 在 完成 表 排 序 ( 图 7) 之 后 ,把 记录 R,,… ,Rw 按 
排 好 的 次 序 重新 排列 。 试 避免 使 用 过 多 的 存储 空间 。 

13.[27] 算法 D 要 求 用 于 存放 2N 个 记录 RI,…,RN 和 S|,… ,Sw 的 空间 ,证 明 ; 如 果 用 新 的 
紧凑 的 过 程 来 代替 步骤 D5 和 D6, 则 有 可 能 仅 需 要 存放 N 个 记录 R,,…,Rw 的 空间 (于 是 这 个 问 
题 就 成 为 在 步骤 D4 之 后 ,根据 值 COUNT[ wu ] ,… ,COUNT[ wv] 设计 一 个 适当 地 重新 排列 R,，,…，, Rw 
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的 算法 ,而 无 须 使 用 附加 的 存储 空间 ;这 实质 上 是 习题 10 中 所 考虑 问题 的 推广 )。 
5.2.1 通过 插入 进行 排序 


有 一 类 重要 的 排序 技术 ,是 以 5.2 节 开 头 处 提 到 的 “ 玩 桥 牌 者 ”的 方法 为 基础 
的 。 在 考察 记录 R; 之 前 ,假定 以 前 的 记录 Ri1,…,R;- 1! 已 经 排 好 序 , 然 后 把 R; 插入 
到 已 排 好 序 的 诸 记 录 的 适当 位 置 。 这 个 基本 主题 可 以 有 硅 干 有 趣 的 变形 。 
直接 插入 最 简单 的 插入 排序 也 是 最 显然 的 。 假 定 1<j 二 NN ,而且 已 经 把 记录 
R1,…,R;-! 重 新 排列 好 ,使 得 ( 记 住 :贯穿 于 本 章 ,K; 篆 表 示 R; 的 键 码 部 分 ) 
Ki EK, Kj 
把 新 键 码 K; 依次 地 和 K;. 1,K;_，,… 进 行 比较 ,直到 发 现 R; 应 当 插 入 到 记录 R; 和 
Ri+1 之 间 为 止 ;然后 把 记录 Ri Ri -1 向 上 移动 一 格 ,并 把 新 的 记录 放置 到 位 置 
i+ 工 处 。 如 下 列 算法 所 示 的 那样 , 宜 于 把 比较 和 移动 操作 组 合 在 一 起 ,互相 穿插 ， 
由 于 R;“ 被 安放 到 适当 的 层次 中 去 ” ,这 种 排序 方法 通常 称 为 第 选 (sifting ) 或 陷入 
(sinking ) 技 术 。 
算法 S( 直接 插入 排序 ) 重新 安排 记录 R1,…, RN 到 适当 位 置 ;在 完成 排序 之 
后 ,它们 的 键 码 将 是 有 序 的 , 即 有 天; 委 … 委 天 No。 
S1.[ 对 7 进行 循环 ] 对 于 j=2,3,…,NN 实施 步骤 S2 到 S5; 然 后 终止 本 算法 。 
S2. [给 i,K,R 赋值 ] 置 i< 一 ;一 1,K< 一 K;,R<R( 在 下 列 步 缀 中 ,将 通过 按 ; 
的 递减 次 序 比较 K 和 KK, ,来 试图 把 R 插入 正确 的 位 置 )。 
S3.[ 比 较 K:K,] 如 果 KK 之 K;, 则 转向 步骤 S5( 我 们 已 找到 了 记录 R 所 求 的 
位 置 )。 
S4. [移动 R;,i 减 值 ] 置 Ri 1 二 R,;, 然 后 i< 一 i 一 1。 如 果 i>>0, 则 返回 到 步 缀 
S3( 如 果 i=0,K 是 目前 找到 的 最 小 的 键 码 , 所 以 记录 R 属于 位 置 1)。 
SS.[R 进 入 Ry1]」] 置 Rj,;. 一 R。 | 










i>0 







S1. 对 /进行 循环 


j>N 





S4. 移 动 R,i 减 值 


图 10 算法 S: 直接 插入 


表 1 表明 ,16 个 做 例子 的 数 ,是 如 何 通 过 算法 S 进行 排序 的 。 这 个 方法 在 计算 机 上 
是 很 容易 实现 的 ;事实 上 ,下 列 的 MIX 程序 是 书 中 最 短 的 ,并 且 还 不 错 的 排序 程序 。 
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表 1 直接 插入 的 例子 


3503:087 


503:512 
人 
503 312:061 


087 303 312:908 
A 
061 087 303 312 908:170 
A 
061 087 170 503 S512 908:897 
人 





061 087 154 170 273 426 503 509 S512 612 653 677 765 897 908:703 
人 


061 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908 








程序 S( 直接 播 和 排序) ”有待 排序 的 记录 在 单元 INPUT+1 至 INPUT+N 中 , 它 
们 按 一 个 全 字 长 的 键 码 在 同一 区 域 中 就 地 排序 。 
rI1 = 三) - N;r12 寺 i;rA 圭 R 寺 KK ;假定 N 宇 2。 


01 START ENT1 2—N 1 SI1. 对 进行 循环 ,< 一 2 
02 28 LDA INPUT + N,1 N-1 S2. 对 i,K,R 兢 值 

03 ENT2 N-1,1 N-1 i<e—j—1 

04 3H CMPA INPUT , 2 B+N-1-A 5S3. 比 殊 K:K; 

05 JGE 5F B+N-1-A 如 黑 开 之 开 ,出 转 到 S5 
06 4H LDX INPUT , 2 B S4. 殉 动 R,,i 减 和信 

07 STX INPUT+1,2 B Ri OR, 

08 DEC2 1 B i<—i—1 

09 J2P 3B B 如 果 , i>>0, 则 鞠 到 S3 
10 5H STA INPUT+ 1,2 N-1 SS. 尺 进 人 民 i 

11 INC1 1 N-1 

12 JINP 2B N-1 2<j<N | 


这 个 程序 的 运行 时 间 为 9B + 10N --3A -9 个 单位 ,其 中 NN 是 被 排序 的 记录 
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数 , A 是 在 步骤 S4 中 i 减 小 到 0 的 次 数 ,而 B 是 移动 的 次 数 。 显 然 ,A 是 对 于 1<] 
过 NN ,Kj<(K1,…,K;-1) 的 次 数 ;这 比 自 左 到 右 的 极 小 值 的 个 数 少 1, 所 以 A 等 价 
于 在 1.2.10 小 节 中 被 深入 分 析 的 量 。 略 加 考虑 又 使 我 们 看 出 B 也 是 一 个 熟悉 的 
量 ; 对 于 固定 的 j ,移动 的 次 数 即 是 K; 的 反 序 的 个 数 。 所 以 ,B 是 排列 天 1， 天 2，…， 
Kw 的 反 序 的 个 数 。 因 此 ,由 等 式 1.2.10-(16),5.1.1-(12) 和 5.1.1-(13) ,我们 有 

A=(min0,aveHvy~1l,max N-1,devy Hn-— HOY); 

B= (min 0,ave(N’— N)/4,max(N’—N)/2,dev VN(N-1)(N+2.5)/6); 
而 且 , 假定 输入 键 码 是 不 向 的 并 且 是 随机 排列 的 , 则 程序 S 的 平均 运行 时 间 征 
(2.25N?+7.75N -3Hw 一 6)u ,习题 33 说 明了 如 何 对 此 稍 作 改进 。 

表 1 的 例子 包含 有 16 项 ;有 两 个 自 左 至 右 的 极 小 值 的 变化 , 即 087 和 061; 而 且 
同上 一 节 我 们 所 见 到 的 那样 ,有 41 个 反 序 。 因 此 N=16,A=2,B=41, 而 总 共 的 
排序 时 间 是 514 个 时 间 单 位 。 

二 又 插入 和 两 路 插入 在 一 个 直接 插入 排序 期 间 , 在 处 理 第 ) 个 记录 时 ,平均 


说 来 要 把 它 的 键 码 大 约 同方 j 个 此 前 已 排 好 序 的 键 码 进行 比较 ,因此 所 实施 比较 的 


总 数 大 约 是 地 (1+2+ …+ 和 NN) 心计 N?; 当 N 适当 大 时 ,这 就 已 经 非常 之 大 了 。 在 


6.2.1 小 节 , 将 研究 “二 分 查找 ”技术 ,该 技术 使 我 们 能 够 在 仅仅 进行 lg N 次 仔细 选 
择 的 比较 之 后 ,就 指出 在 哪里 插入 第 ; 项 。 例 如 , 当 插 入 第 64 个 记录 时 ,可 以 由 对 
Kws 和 Ky 进行 比较 开始 。 如 果 是 小 于 , 则 就 把 它 同 Kie 进 行 比较 ,但 如 果 是 大 于 ， 
则 就 把 它 同 Ksg 进 行 比较 ,等 等 。 于 是 仅仅 做 6 次 比较 之 后 ,就 可 知道 Re 应 插入 的 


位 置 。 插 入 所 有 N 项 所 做 的 比较 总 数 就 大 约 是 NlgN ,这 是 对 于 才 N? 的 实质 性 的 


改进 。 而 6.2.1 小 节 表 明 , 其 相应 的 程序 并 不 比 直接 插 和 人 程序 复杂 许多 。 这 个 方法 
称 为 二 又 插入 ; 它 早 在 1946 年 就 由 John Mauchly 在 计算 机 排序 的 第 一 个 公开 讨论 
中 述 及 。 

二 叉 插 和 人 的 困难 是 , 它 只 解决 了 问题 的 一 半 。 在 已 经 发 现 记录 R; 应 插入 到 哪 


里 之 后 ,仍然 需要 移动 大 约 省 j 个 此 前 已 排 好 序 的 记录 ,以 便 为 Ri 腾 出 位 置 ,所 以 


总 共 的 运行 时 间 实 质 上 仍然 同 N? 成 比例 。 某 些 早期 的 计算 机 (例如 IBM 705) 有 一 
个 内 部 的 “* 滚 进 " 指 令 , 它 以 高 速度 来 进行 这 样 的 移动 操作 ,现代 的 机 器 通过 附加 的 
专用 软件 ,甚至 能 更 快 地 完成 移动 操作 ;但 当 N 增加 时 ,对 N 的 依赖 性 终 将 凸现 出 
来 。 例 如 ,H.Nagler 的 分 析 [CACM 3 (1960) ,618 一 620] 指 出 , 当 每 个 记录 的 长 度 
为 80 个 字符 时 ,在 IBM 705 上 对 多 于 约 N =128 个 记录 的 排序 不 应 推荐 二 又 插入 ; 
类 似 的 分 析 对 其 它 的 机 器 也 适用 。 

当然 ,一 个 灵巧 的 程序 员 可 以 想 出 各 种 方法 来 减少 所 需 移动 的 数量 ; 头 一 个 这 
样 的 技巧 ,如 表 2 所 示 ,是 早 在 50 年 代 时 就 被 提出 的 。 表 中 排序 的 头 一 项 被 放置 在 
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一 个 输出 区 域 的 中 心 ,而 且 通 过 向 右 或 向 左 移动 (就 看 哪 种 最 方便 ) 腾 出 空间 。 些 法 
比 普通 二 又 插入 节省 一 半 运 行 时 间 , 其 代价 是 程序 稍微 复杂 一 点 。 使 用 此 法 时 ,还 
可 以 不 必 使 用 比 N 个 记录 所 需要 的 更 多 的 空间 (见习 题 6) ;但 对 于 这 个 “两 路 ”插入 
的 方法 ,将 不 作 更 详细 的 叙述 ,因为 已 有 了 更 为 有 趣 的 方法 。 

表 2 两 路 插入 


303 
A 
087 303 
A 
087 303 512 


人 


061 087 303 512 
A 


061 087 S503 512 908 
A 
061 087 170 303 312 908 
A 
061 087 170 303 S512 897 908 
A 


061 087 170 275 503 512 897 908 
Shell 方法 ”如果 有 这 样 的 一 个 排序 算法 , 它 一 次 只 把 诸 项 目 移 动 一 个 位 置 , 则 
它 的 平均 运行 时 间 最 好 也 只 是 同 N 成 比例 。 因 为 在 这 个 排序 过 程 中 每 个 记录 都 


必须 平均 谢 历 大 约 广 N 个 位 置 (见习 题 7)。 因 此 ,如 果 要 对 直接 插入 做 实质 性 的 改 


进 ,就 需要 一 种 新 原理 , 它 使 这 些 记录 做 长 距离 的 跳跃 ,而 不 只 是 一 些 短促 的 小 步 挪 
Dj 

这 样 一 个 方法 是 由 Donald.L. Shell 于 1959 年 提出 的 [CACM 2,7(July 1959)， 
30 一 32] ,我 们 称 它 为 Shell 排序 。 表 3 说 明了 该 方法 的 一 般 想法 :首先 把 这 16 个 记 
录 分 成 为 8 组 ,两 两 一 组 , 即 (Rj,Ro),(R,,Rio),…,(Rs,Rio)。 分 别 对 每 组 记录 
进行 排序 ,使 我 们 进 到 表 3 的 第 2 行 ,这 称 为 “第 一 次 扫描 "。 注 意 ,154 已 同 512 区 
换 了 位 置 ;908 和 897 两 者 都 跳 到 右边 去 了 。 现 在 把 这 些 记录 分 成 4 组 ,每 4 个 一 
组 , 即 ( Rj ,RR;, Ro,; R13),…,(R4s, Re,Ris, Rio),; 并 再 次 分 别 对 每 组 进行 排序 ,这 
“第 二 次 扫描 "使 我 们 进 到 了 第 3 行 。 第 三 次 扫描 对 于 各 有 8 个 记录 的 两 个 组 进行 
排序 ,然后 第 四 次 扫描 通过 对 所 有 16 个 记录 进行 排序 ,来 完成 整个 过 程 。 每 个 中 间 
排序 过 程 ,或 者 处 理 比 较 短 的 文件 ,或 者 处 理 相 当 好 地 编 了 序 的 文件 ,所 以 每 个 排序 
操作 可 以 使 用 直接 插入 ;这 些 记 录 势 必 快 速 地 收敛 到 它们 的 最 终 目 标 。 

Shell 排序 也 叫做 “减少 增 量 的 排序 ”, 因 为 每 一 遍 通 过 一 个 增 量 h 来 确定 ,使 得 
我 们 对 相距 h 个 单位 的 记录 进行 排序 。 增 量 8,4,2,1 的 序列 不 是 一 成 不 变 的 ;任何 
序列 h,,h._1,… ,ho 都 可 以 使 用 此 方法 ,只 要 最 后 的 增 量 ho=1 就 行 。 例 如 , 表 4 示 
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示 出 了 用 增 量 7,5,3,1 进行 排序 的 相同 数据 。 有 些 序列 要 比 其 它 序列 更 好 些 , 后 面 
将 讨论 增 量 的 选择 。 
表 3 带 有 增 量 8.4.2.1 的 Shell 排序 


503 087 512 061 908 {70 897 275 653 426 154 509 612 677 765 703 
8- 排 序 : 


503 087 154 06! 612 170 765 275 653 426 512 509 908 677 897 703 
4- 排 序 : 





503 087 154 061 612 170 512 275 653 426 765 509 908 677 897 703 
2- 排 序 : 信和 个人 人 人 人 人 人 人 人 全 全 全 一 一 


I54 061 503 087 512 !70 612 275 653 426 765 509 897 677 908 703 
-排序 作 _ 和 人 _ 入 _ 和 人 _ 人 入 _ 入 _ 和 人 _ 人 和 人 _ 人 -人 -人 -人 一 人 一 人 一 人 一 








06] 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908 


表 4 带 有 增 量 7,5,3,1 的 Shell 排序 


503 087 512 061 908 170 897 275 653 426 154 509 612 677 763 703 


275 087 426 061 509 170 677 503 653 512 154 908 612 897 765 703 


154 087 426 061 509 170 677 503 653 512 275 908 612 897 765 703 


061 087 170 [54 275 426 512 503 653 612 509 765 677 897 908 703 
:LUAN_ 和 和 人 和 人 _ 入 _ 入 _ 入 _ 人 入 _ 入 _ 入 _ 人 入 _ 人 和 人 人 一 





061 087 154 170 275 426 503 509 512 612 633 677 703 765 897 908 


算法 D(Shell 排序 ) 首先 适当 排列 记录 Ri,…, Rn; 在 完成 排序 之 后 ,它们 的 
键 码 将 是 有 序 的 :Kj 过 … 达 Kv。 用 一 个 辅助 的 增 量 序列 h,,h,_1,… ,ho 来 控制 这 
个 排序 过 程 ,其 中 h6=1; 适 当选 择 增 量 可 以 显著 地 减少 排序 时 间 , 当 t=1 时 ,这 个 
算法 退化 为 算法 S。 
D1.[ 对 进行 循环 ] 对 于 s=:,t 一 1,…,0 实施 步 综 D2; 然后 终止 这 个 算法 。 
D2.[ 对 i 进行 循环 ] 置 一 h,, 并 对 hj 三 NN 实施 步骤 D3 到 D6( 我 们 将 使 
用 直接 插入 方法 ， 来 对 隔 开 h 个 位 置 的 元 素 进行 排序 ， 使 得 对 于 1 二 i 三 
Nh,K, 过 K;; ,6o 步 又 D3 到 D6 实际 上 分 别 与 算法 S 中 的 步 又 S2 到 S5 
相同 )。 
D3.[ 设 置 i,K,R] 置 ;<) 一 7 天 一 KR<Ri。 
D4.[ 比 较 K:K;] 如 果 天 之 天 , 则 转 到 步骤 D6。 


。 TO 。 


第 5 章 排序 





D5. [移动 R,,i 减 值 ] 


D6.[R 进入 R,,,|] 
对 应 的 MIX 程序 不 比 直接 插入 程序 长 很 多 ,下列 代 码 中 的 08 一 19 行 是 从 程序 S 


D4。 


置 R,, ,一 R。 | 


置 R,; ;一 民 ;, 然 后 i 一 i 一 h。 如 果 i >0, 则 转 回 步骤 


直接 翻 译 过 来 的 ,成 为 算法 D 这 个 更 一 般 的 结构 的 一 部 分 。 


程序 D(Shell 排序 ) 


我 们 假定 这 些 增 量 被 存储 于 一 个 辅助 表 中 ,h, 在 单元 昌 
+s 中 ;所 有 的 增 量 都 小 于 N。 寄 存 器 分 配 :rI1 圭 j ~ N;r12 二 i;rA 三 R==K ;rl3= 


s;r14 圭 h。 注 意 ,这 个 程序 是 自修 改 的 ,为 的 是 要 得 到 内 部 循环 的 有 效 执行 。 


0L STRRT ENT3 


02 


03 


04 


05 


06 


07 


08 


09 


1H 


2H 


3H 


4H 


DH 


6H 


LD4 


ENT1 


T—1 


NT-S 


NT-—S 


B+NT—-S-A 


B+NT-S-A 


B 


D1 .对 ;进行 短 环 。s<-: 一 1 
D2. 对 j 进行 短 环 。h 一 h.、 


修改 主 循环 中 3 条 指令 的 地 址 


rJTL < 一 入 一刀 


J<A+I 

D3. 对 i,K,R 峰值 

i< 7 一 站 (被 修改 的 指令 ) 
D4. 比 荧 开 : 开 ， 

如 果 天 之 天 , 则 转 到 D6 
D5. 胸 动 R;,i 减 值 

RR;; ,一 Ri( 被 修改 的 指令 ) 
i<-i 一 hh 

如 果 i>0, 则 转 到 D4 

D5 .R 进 人 R;,; (被 修改 的 指令 ) 
J 一 ]+1 


如 果 ;三 NN, 则 转 到 D3 


21 J3NN 1B 








“Shell 方法 的 分 析 为 了 选择 好 的 用 于 算法 D 中 的 增 量 序列 h,,…, ho, 知 要 
把 运行 时 间作 为 这 些 增 量 的 函数 来 分 析 。 这 导致 了 某 些 更 迷惑 人 的 数学 问题 ,至 今 
犹 未 完全 解决 ;还 没有 人 能 够 确定 :对 于 很 大 的 N 值 ,最 好 的 增 量 序列 是 什么 ? 但 
是 关于 Shell 减少 增 量 排序 的 特性 ,已 经 知道 了 大 量 有 趣 的 事实 ,我 们 将 在 这 里 作 一 
概述 。 细 节 在 以 下 的 习题 中 给 出 (不 专长 于 数学 的 读者 可 以 跳 过 下 面 数 页 , 自 公 式 


(12) 后 的 表 插 入 的 讨论 处 继续 阅读 )。 


程序 D 的 频率 计数 指出 有 5 个 因素 确定 执行 时 间 :文件 大 小 N ;扫描 次 数 ( 即 增 
量 的 个 数 )T= z; 增 量 的 和 S=hot+…+h,_1; 比 较 的 次 数 B+ NT-S-A; 以 及 移 
动 的 次 数 B。 如 同 在 程序 S 中 分 析 的 那样 ,A 实质 上 是 在 中 间 的 排序 操作 中 过 到 
的 自 左 到 右 的 极 小 值 的 数目 ,B 是 诸 子 文件 中 的 反 序 数 。 对 运行 时 间 起 支配 作用 的 
因素 是 B ,所 以 我 们 将 把 大 部 分 注意 力 集 中 于 此 。 为 了 进行 分 析 , 将 假定 键 码 是 不 


同 的 , 且 开 始 时 是 处 于 随机 的 顺序 之 下 。 

我 们 把 步骤 D2 的 操作 称 为 “h 排 
序 ” ,于 是 ,Shell 方 法 由 h,_ 1 排序 ,接着 
是 h,_,,… ,最 后 是 ho 排序 所 组 成 。 对 
于 1 过 i 三 N-- 有 hh, 满足 K; 三 Ki; ;的 文 
件 , 称 为 “h 有 序 ” 的 文件 。 

当 恰 有 两 个 增 量 hh/ =2 和 ho=1 
时 ,首先 考虑 直接 插入 的 最 简单 的 推 
广 。 在 此 情况 下 ,第 二 次 扫描 开始 于 一 


个 2 有 序 (2-ordered ) 的 键 码 序列 K|，. 


天天 No 容易 看 出 ,对 于 1 过 i 志 nn 
一 2 ,使 得 a; 达 a;12 的 11,2,…,n| 的 排 
列 C1C2 ”Ch 的 个 数 是 


2 
因为 车 任 选 Ln/2 个 元 素 放 入 偶数 号 位 
置 ca … 中 , 剩 下 的 | /2 1 个 元 素 放 人 
奇数 号 位 置 中 , 则 由 每 次 这 种 选择 我 们 
正好 得 到 一 个 2 有 序 排列 。 在 一 个 随 
机 文件 已 经 2 排序 之 后 ,每 种 2 有 序 排 


00 01 02 03 04 05 06 07 



































图 11 在 2 有 序 和 一 个 格子 通路 之 间 
的 对 应 关系 斜体 数字 是 权 , 它 对 应 于 
2 有 序 排列 中 的 反 序 数 


列 都 是 同等 可 能 的 。 在 所 有 这 样 的 排列 当中 , 反 序 的 平均 个 数 是 多 少 呢 ? 
设 A, 是 在 {1,2,… ,nj 的 所 有 2 有 序 排列 当中 的 反 序 总 数 。 显 然 Al1=0,A2?= 


1,A3=2; 通 过 考虑 下 面 6 种 情况 


。 WT1 : 
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1324 1234 1243 2134 2143 3142 
我 们 发 现 A4=1+0+1+1+2+3=8。 为 了 一 般 地 研究 A, ,考虑 对 于 n=15, 图 11 
所 示 的 “格子 框图 ”。|1,2,… ,nj 的 一 个 2 有 序 排列 可 以 表示 为 ,从 左上 角 的 点 (0， 
0) 到 右 下 角 的 点 (| n/21,Ln/21) 的 一 条 通路 ,如 果 根 据 在 这 个 排列 中 ,k 出 现 于 奇数 
或 偶数 位 置 而 分 别 作 向 下 或 向 右 的 第 步 通路 的 话 。 这 个 规则 确定 了 2 有 序 排列 ， 
与 格子 框图 的 角 到 角 的 n 步 通路 之 间 的 一 一 对 应 。 例 如 ,图 11 中 由 黑 线 所 示 的 通 
路 对 应 于 排列 
213463710811912141319 (1) 

而 且 ,如 图 11 所 示 那 样 ,我 们 可 以 把 权 “ 附 加 ”到 通路 的 垂直 线 上 ;从 (i,j) 到 
(i 十 1,j) 的 一 条 线 得 到 权 |i 一 ;|。 对 格子 框图 稍 做 研究 就 会 使 读者 相信 , 沿 着 每 条 
通路 ,这 些 权 之 和 等 于 对 应 的 排列 的 反 序 个 数 ;这 个 和 也 等 于 在 给 定 通路 和 由 图 中 
的 黑 点 表示 的 楼 梯 通 路 之 间 带 阴影 的 方 格 个 数 (见习 题 122)。 例 如 ,(1) 有 1+0+1 
+0+1I+2+1+0=6 个 反 序 。 

当 a 全 a 和 6 二 5 时 ,从 (a,b) 到 (a ,b ) 的 有 关 通 路 的 条 数 , 是 把 wo“ - a 条 垂 
直线 同 b -bb 条 水 平 线 混合 起 来 的 方式 种 数 , 即 

一 a+b 一 "| 
因此 ,其 对 应 的 通路 通 历 从 (i,j) 到 (i +1,j) 的 垂直 线段 的 排列 数 是 
(人 
1 [n/2]—} 
乘 以 相关 联 的 权 并 对 所 有 线段 求 和 ,给 出 
4 = > 和 


J 


. 2 十 71f272 -i 

人 i | ; | nj (2) 

在 这 些 和 中 的 绝对 值 符号 使 得 此 计算 有 些 环 手 ,但 是 习题 14 说 明 A, 有 惊人 的 简单 
形式 Laz/2」 2"” 。 因 此 ,在 一 个 随机 的 2 有 序 排 列 中 的 平均 反 序 数 是 


a 


由 Stirling( 斯 特 林 ) 近 似 公 式 ,这 渐 近 于 Vr/128”32<0.15n32。 容 易 看 出 反 序 的 极 
大 个 数 是 
("2 + 1 ) 
2 
如 同 在 习题 15 中 那样 ,考察 生成 函数 
hi(z)=1 


hs(z)=1+zx 


1 
eg” 
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hs3(z)=1+2z 
hi(z) = 1+3z 二 zx 十 >3 
1 (3) 
以 便 更 加 仔细 地 研究 反 序 的 分 布 , 是 有 教 益 的 。 这 样 一 来 ,我 们 就 发 现 了 标准 差 也 
同 ?2? 成 比例 。 所 以 ,这 个 分 布 相对 于 平均 值 来 说 不 是 非常 稳定 的 。 
现在 来 考虑 , 当 增 量 是 h 和 1 时 ,算法 DD 的 一 般 的 两 次 扫描 的 情况 : 


定理 HH 在 {1,2,…,nj| 的 一 个 hh 有 序 的 排列 中 , 反 序 的 平均 数 是 
2°9 lglg! h r 1/hA-r 
(nsh) = (39+ Si (ls jos +1)+ 2 +1)- 3 | 2 ja (4) 

式 中 ,gqg=[Lnf/hl|,r=nmod ho 

这 个 定理 是 Douglas H. Hunt 给 出 的 [Bachelor’s thesis, Princeton University 
(April 1967)]。 注意 , 当 h 之 n 时 ,这 一 公式 正确 地 给 出 f(x,h) = 于 人。 

证 明 一 个 h 有 序 的 排列 包含 长 度 为 g+1 的 7 个 排 好 序 的 子 序列 ,和 长 度 为 
q 的 hh 一 r 个 排 好 序 的 子 序列 。 每 个 反 序 都 来 自 一 对 不 同 的 子 序列 ,而 旦 在 一 个 随 
机 的 h 有 序 的 排列 中 ,给 定 的 一 对 不 同 的 子 序 列 都 定义 一 个 随机 的 2 有 序 的 排列 。 
因此 , 反 序 的 平均 个 数 等 于 在 每 对 不 同 子 序列 之 间 反 序 的 平均 个 数 之 和 , 即 


ry A2o+ Azgt1 h—-r\A 
er "(ho 7) + 1 | 2 Ue | 
9 十 二 9 9 
推论 ”如 朵 增 量 序列 h,_|，… ,hj ,ho 满足 条 件 
hi+1mod h.=0 对 于 :一 1>>s 宇 0 ($5) 
则 在 算法 DD 中 移动 操作 的 平均 次 数 是 
2 (rf(gs + 1,hsrlhs) + (hs — r) fg, hlh,)) (6) 


其 中 7x, 二 NN mod hh,,g; 二 LN/h,j,h,= Nh,_1,f 在 (4) 中 定义 。 

证 明 ,排序 的 过 程 由 对 长 度 为 q+ 1 的 zx, 个 (h,,1/h,) 有 序 的 子 文件 ,以 及 长 
度 为 q; 的 (h, -x,) 个 这 样 的 子 文件 ,进行 直接 插入 排序 所 组 成 。 整 除 性 条 件 意味 
着 ,在 每 种 (h,;1/h,) 有 序 排列 都 是 同等 可 能 的 意义 下 ,每 个 子 文件 都 是 随机 的 
(hs+1/h,) 有 序 的 排列 ,因为 我 们 假定 原来 的 输入 是 不 同 元 素 的 一 个 随机 排列 。| 


当 增 量 分 别 为 h 和 1 时 ,在 这 个 推论 中 的 条 件 (5) 对 于 两 次 扫描 的 Shell 排序 总 
是 满足 的 。 如 果 g=LN/hj 且 =N mod 4h, 则 程序 DD 中 的 量 B 的 平均 值 将 为 
rf(qg+1,N)+(h-r)f(gq,N)+ f(N,h) 
r 1 —r 
- 2 j+ h 3 1 9); f(N,h) 
对 于 第 一 次 近似 ,函数 f(n ,hh ) 等 于 (Vx/8)n2h 吕 ;例如 当 n= 64 时 ,我 们 可 把 它 同 
. 83 6 
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图 12 的 光滑 曲线 相对 照 。 因 此 两 次 扫 1100 
描 的 程序 D 的 运行 时 间 近 似 于 同 2N?*/ oo0 
h+VnxN*h 成 比例 。 而 hh 的 最 好 选择 ”ooo 2 
近似 于 Y16N[x 守 1.72 YN; 而且 通 过 ”0 
这 样 选择 的 有 ,我们 得 到 同 N 汉 成 比例 p24 
的 平均 运行 时 间 。 2 

于 是 ,可 以 仅仅 通过 使 用 具有 两 个 600 2 
增 量 的 Shell 方法 ,就 能 对 直接 插入 法 做 ”500 
出 实质 性 的 改进 ,由 ON) 变 成 
O(No% )。 显 然 当 使 用 更 多 的 增 量 时 ， 
甚至 可 以 做 得 更 好 。 习 题 18 讨论 了 当 300 
; 固定 且 当 诸 h 受 整除 性 条 件 限制 时 200[ 
h,_1,…, ho 的 最 佳 选择 ;对 于 很 大 的 ”0% 
N ,运行 时 间 减 少 到 O(N55 4) ,其 中 
<c=1/(2: 一 1)。 我 们 不 能 通过 使 用 上 述 |! 8 16 24 32 40 48 56 64 72 80 1/ 
公式 突破 N “的 壁 爸 ,因为 最 后 的 扫描 图 12 个 元 素 (n=64) 的 有 
总 是 要 对 这 个 和 提供 个 反 序 。 序 文件 中 的 反 序 平均 数 /(n,h) 


400 








f(ON ,hi) oo (Vr/8) Nh? 


但 是 赁 直觉 就 知道 , 当 增 量 h,,… ,ho 不 满足 整除 性 条 件 ($) 时 ,甚至 能 做 得 更 
好 。 例 如 ,8 排序 继 之 以 4 排序 ,再 继 之 以 2 排序 的 方法 不 允许 在 偶 位 置 和 奇 位 置 的 
键 码 之 间 有 任何 相互 作用 ;因此 ,最 后 的 1 排序 扫描 不 可 避免 地 面临 9( NY) 个 反 
序 。 相 反 ,7 排序 继 之 5 排序 ,再 继 之 以 3 排序 ,以 这 样 的 方式 交叉 摊 杂 ,最 后 的 1 排 
序 扫描 就 不 会 遇 到 多 于 2N 个 反 序 (见习 题 26)1 确实 ,这 里 出 现 了 一 个 令 人 吃惊 的 
现象 : 

定理 K 如 果 一 个 k 有 序 的 文件 说 h 排序 , 则 它 保 村 为 k 有 了 序 的 。 

于 是 ,首先 是 7 排序 ,然后 是 5 排序 的 一 个 文件 , 变 成 为 既是 7 有 序 的 ,又 是 5 
有 序 的 。 而 如 果 对 它 进行 3 排序 , 则 结果 是 7,5 和 3 有 序 的 。 这 个 值得 注意 的 性 质 
的 例子 如 表 4 所 示 。 

证 明 习题 20 表明 ,这 个 定理 是 下 列 事实 的 一 个 推论 : 

引 理 LL 设 m,n,r 是 非 负 幕 数 ,日 (zy,…,X,+;) 和 (yi,…,y,+;) 是 任意 数 
列 , 满 足 


Vi 3 这 C9 


如 果 诸 x+ 和 请 y 被 独立 地 排序 ,使 得 zx) 三 … 声 x; ;4;y 和 yy 过 二 yy 34;,; 则 关系 (7) 仍 将 
成 立 。 
:i 
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证 明 已 知 除 mx 个 之 外 ,所 有 的 x 都 高 于 ( 即 大 于 或 等 于 ) 某 个 y, 这 里 ,不 同 
的 zx 高 于 不 同 的 y。 设 1 三 j 记 +。 由 于 x +; 在 排序 之 后 高 于 m+j 个 z, 它 至 少 高 
于 jj 个 y; 所 以 它 高 于 最 小 的 j 个 y; 因 此 在 排序 之 后 zw +; 之 yj。 1 1 


定理 K 表明 ,通过 互 素 增 量 来 进行 排序 是 令 人 满意 的 ,但 它 并 不 直接 导致 对 在 
算法 D 中 所 做 移动 次 数 的 精确 估计 。 由 于 既是 h 有 序 又 是 & 有 序 的 |1,2,…,n1 的 
排列 个 数 , 并 不 总 是 n! 的 一 个 因子 ,我 们 可 以 看 到 ,定理 KK 并 不 提供 一 切 详 情 ; 在 进 
行 & 排序 和 4h 排序 之 后 , 某 些 & 和 h 有 序 的 文件 , 比 起 其 它 文件 更 为 经 常 出 现 。 因 
此 , 当 :>3 时 ,对 于 一 般 的 增 量 h,_|,… ,ho, 对 于 这 个 算法 的 平均 情况 的 分 析 , 至今 
使 人 们 困惑 不 已 。 当 给 定 N 和 (h,-1,…,ho) 时 ,其 至 没有 一 个 明显 的 方法 来 求 最 
坏 的 情况 。 然 而 , 当 增 量 有 某 种 形式 时 ,关于 近似 的 极 大 运行 时 间 ,我 们 能 够 推导 出 
右 于 个 结果 出 来 。 

定理 P 当 六 =23271-1,0 和 要 s<i=LlgN 时 ,算法 万 的 运行 有 时间 是 O(N2)。 

证 明 只 需 对 于 第 ;次 扫描 中 的 移动 次 数 B, 给 出 上 限 , 使 得 8 -+…+Bo= 
O(N322) 就 可 以 了 。 对 于 上 > 过 112, 在 前 22 次 扫描 期 间 , 可 以 使 用 显然 的 界限 
(Bound)B,= O(h,(NI/h,)*); 而 对 于 随后 的 扫描 ,可 以 使 用 习题 23 的 结果 , B, = 
O(Nh,42h,s41fh,); 因 此 ,B,_j+…+Bo=O(N(2+2++2 +22+ .+2))= 
O(N?)。 | 


这 个 定理 是 A. A. Papernov 和 G.V. Stasevich 给 出 的 , 见 Problemy Peredachi 
Informatsii 1,3 (196$9) ,81 一 98。 它 给 出 了 这 个 算法 的 最 坏 运行 时 间 的 上 限 ,而 不 只 
是 平均 运行 时 间 的 一 个 界限 。 由 于 当 诸 h 满足 整除 性 约定 (5) 时 ,最 坏 运 行 时 间 是 
入 阶 的 ,这 个 结果 是 不 平凡 的 ;而 且 习 题 24 表明 :指数 3/2 已 不 能 再 降低 了 。 

1969 年 Vaughan Pratt 发 现 了 定理 P 的 一 个 有 趣 的 改进 :如 黑 帘 选 至 的 增 基 是 
形 如 2234 的 所 有 数 的 集合 ,它们 部 是 小 于 NN 的 , 则 算 落 D 的 运行 有 时间 是 NIlogN) 
阶 的 。 在 这 种 情况 下 ,还 可 以 对 这 个 算法 做 藻 干 重要 的 简化 。 参 见习 题 30 和 31。 
然而 ,即使 有 这 些 简 化 ,Pratt 的 方法 由 于 要 对 数据 做 相当 多 次 的 扫描 ,因此 仍 需 要 
一 个 很 大 的 开销 。 所 以 在 实践 中 ,他 的 增 量 实际 上 并 不 比 定理 P 的 排序 时 间 更 快 
些 ,除非 N 是 天 文 数字 似 地 大 。 对 于 现实 的 NN 的 最 好 序列 看 来 要 满足 h, 之 pw’, 其 中 
比例 op 寺 h,41/h, 大 体 上 与 ; 无关, 但 可 能 依赖 于 N。 

我 们 已 经 注意 到 ,以 这 样 一 种 方式 , 即 每 一 个 增 量 都 是 它 的 所 有 前 驱 者 的 因子 ， 
来 选择 增 量 是 不 明智 的 。 但 是 ,我 们 将 不 作出 结论 说 ,最 好 的 增 量 是 同 它 的 所 有 前 
驱 互 素 的 。 事 实 上 , 当 我 们 是 在 g 排序 时 ,既是 gh 排序 又 是 gk 排序 且 h | 的 一 


个 文件 的 每 个 元 素 至 多 有 考 (h 一 1)(& 1) 个 反 序 (见习 题 21)。 通 过 分 析 这 个 事 


实 , 当 六 一 co 时 Pratt 的 序列 12*39]} 获胜, 但 是 对 于 实用 的 目的 说 来 它 提 高 得 太 小 。 
Janet Incerpi 和 Robert Sedgewick[]J. Comp. Syst. Sci. 31 (198$) ,210 一 224; 又 见 
Lecture Notes in Comp. Sci. 1136 (1996) ,1 一 11j 通 过 说 明 如 何 构造 满足 及 汪 o， 而 
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旦 每 个 增 量 还 是 它 的 两 个 前 驱 者 的 最 高 公 因子 ,找到 理论 和 实践 两 方面 都 最 好 的 增 
量 序列 。 给 定 任 何 数 p>1, 他 们 从 定义 一 个 基 序 列 al,a,,… 开 始 ( 其 中 a 为 之 扩 
的 最 小 整数 ) ,使 得 对 于 1 委 j<&A,a ase。 例如 ,如 果 o=2.5, 这 个 基 序 列 为 


aa ai = 3,7,16,41,101,247,613,1529 ,3821,9539 ,… 
十 ] 
现在 通过 置 = 1 和 对 于 | ”<: 达 [”， ,四 
h, 一 h,_a, (8) 


定义 增 量 。 因 此 增 量 序列 开始 于 
1; al; a», AQ1Q2};Q1Q3, Q2943, QQ29Q3) “"° 
例如 , 当 p=2.5 时 ,我 们 得 到 
1 ,3,7,21,48,112,336,861,1968,4592,13776,33936,8686]1 ,198768 ,… 
关键 点 是 我 们 可 以 把 递 推 式 (8) 转 过 来 
hs = h,is/a, = h,\ fa 
s rtsl ar (7) 


:) 2) 
因此 ,由 上 一 段 中 的 论证 , 当 我 们 进行 ho- 排 序 ,h -排序 … 时 ,每 个 元 素 的 反 序 个 数 
至 多 为 


zs 人 0 


pa,ai);ip(asa),paial)io(ada3s)pad ay)o(adai) (10) 
其 中 0(,A)= 亲 (及 -1)( -1)。 如 果 AISN< pf 移动 的 总 数 日 至 多 是 N 乘 


以 这 个 序列 的 头 上 个 元 素 之 和 。 因 此 (参见 习题 41) ,我 们 可 以 证 明 , 最 坏 情况 的 运 
行 时 间 比 N “的 阶 要 好 得 多 。 


定理 1 当 增 量 户外 (8) 定 义 肝 ,算法 万 的 运行 有 时间 为 DO(NecYm )。 这 里 <c= 
V 8lnp 并 且 由 OO 〇 所 脱 合 的 沉 数 依 总 于 po。 | 


当 N 一 co 时 这 个 渐 近 上 限 并 不 特别 重要 ,因为 Pratt 的 序列 就 做 得 很 好 。 定 理 
I 主要 是 具有 实际 增长 率 六 ,so: 的 一 个 增 量 序列 , 当 给 定 任 何 o>1 的 值 时 ,可 以 保 
证 对 于 任意 小 的 ce>0, 是 O(CNL 0 的。 

让 我 们 通过 考察 程序 万 的 总 共 的 运行 时 间 , 即 (9B+1I0NT+13 开 -10S 一 3A 
+1)z, 来 更 仔细 地 考虑 N 的 实际 大 小 。 表 5 所 示 为 当 N=8 时 ,对 于 各 种 增 量 序 
列 的 平均 运行 时 间 。 对 于 这 个 小 的 NN 值 , 短 记 操作 是 费用 的 最 重要 部 分 。 因 此 当 + 
= 工时 得 到 最 好 的 结果 ;因此 ,对 于 N=8, 使 用 简单 的 直接 播 和 人 更 好 ( 当 N=8 时 程 
序 S 的 平均 运行 时 间 仅 为 191.85u)。 奇 怪 的 是 , 当 hi1=6 时 ,出 现 最 好 的 两 过 扫描 
算法 ,因为 在 这 里 大 的 S 值 要 比 小 的 B 值 更 为 重要 。 类 似 地 ,三 个 增 量 3 2 1 极 小 
化 平均 移动 次 数 , 但 它们 并 不 导致 最 好 的 三 次 扫描 序列 。 在 这 里 来 记录 极 大 化 移动 
次 数 的 某 些 排列 的 “最 坏 情 况 " 可 能 是 有 趣 的 ,因为 对 于 这 样 的 排列 的 一 般 结 构 仍 然 
是 未 知 的 : 

a 806 . 
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/=S,Ai=3,hn0=1: 85263741 (19 次 移动 ) 
h;= 二 3,h1= 二 2,ho=1: 83572461 (17 次 移动 ) 
表 5 当 NN=8 时 ,对 算法 口 的 分 析 


| 


MIX 时 间 
204.85zv 
235.91u 
220.15u 
217.75z 
209.20z 
206. 60u 
209.85u 
274.42u 


253.60u 


1 1 
3 2 
4 2 
5 2 
6 2 
7 2 
8 2 
7 3 
9 3 
6 3 


280.30z 





当 N 增长 得 更 大 时 ,我 们 有 一 个 稍微 不 同 的 情况 。 表 6 所 示 为 当 N = 1000 时 ， 
各 种 增 量 序 列 的 近似 移动 次 数 , 最 初 的 几 项 满足 整除 性 限制 (5) ,使 得 可 以 使 用 公式 
(6) 和 习题 19; 通 过 使 用 经 验 检验 (Empirical tests) 可 以 得 到 其 他 情况 的 近似 平均 
值 。 生 成 了 1000 个 元 素 的 一 万 个 随机 文件 ,而 且 它 们 每 一 个 都 用 每 个 增 量 序列 加 
以 排序 。 自 左 至 右 的 极 小 A 的 数 的 标准 差 通常 约 为 15; 移动 次 数 B 的 标准 差 通常 
约 为 300。 

在 这 些 数据 中 某 些 模式 是 明显 的 ,但 算法 DD 的 行为 仍然 是 非常 模糊 的 。Shell 
最 初 建议 使 用 增 量 L N/214,LN/41,LN/81,…, 但 当 N 的 表示 包含 一 长 串 0 时 ,这 是 
不 合适 的 。Lazarus 和 Frank[CACM 3 (1960),20 一 22] 建 议 使 用 实质 上 相同 的 序 
列 ,但 必要 时 加 工 ,以 使 所 有 增 量 都 成 为 奇数 。Hibbard[CACM 6 (1963) ,206 一 213] 
建议 使 用 形 如 2* 一 1 的 增 量 ;Papernov 和 Stasevich 建议 使 用 形 如 24+1 的 增 量 。 表 
6 中 研究 的 其 它 自然 序列 包含 数 (2 一 (一 1)*)/3、(3* 一 1)/2 以 及 斐 波 那 契 数 ,和 对 
于 p=2.5 和 和 p=2 的 Incerpi-Sedgewick 序列 (8), 另 外 还 示 出 类 似 Pratt 的 序列 
1S211?1 和 |7213?} ,因为 它们 保留 O(N(logN)2) 的 渐 近 特性 ,但 对 于 小 的 N 有 较 
低 的 开销 费用 。 表 6 中 最 后 的 一 些 例子 来 自 于 由 Sedgewick 设计 的 另外 的 序列 , 它 
们 基于 稍微 不 同 的 带 启发 式 的 探索 [J. Algorithms. 7 (1986),159~173]: 
9.2;— 9.22 +1 如 果 * 为 偶数 
8.25 -6.262722+1 如果 s 为 奇数 
当 使 用 这 些 增 量 (ho0,hi1,h,,…)= (1,5,19,41,109,209,…) 时 ,Sedgewick 证 明 , 最 
坏 情 况 的 运行 时 间 是 O(N43 ) 。 

对 于 形 如 2* + 1 的 增 量 ,以 及 对 于 o=2 的 Incerpi-Sedgewick 序列 ,观察 到 极 小 
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的 移动 次 数 大 约 是 6750。 但 重要 的 是 要 认识 到 ,移动 次 数 并 非 惟一 的 考虑 ,即使 是 
它 支 配 渐 近 运 行 时 间 。 因 为 程序 D 花费 9B+10(NT 一 S)+… 个 时 间 单 位 ,我 们 看 
到 一 次 扫描 大 约 相当 于 减少 9 N 次 移动 ; 当 N = 1000 时 ,如 果 我 们 能 减少 一 次 扫 


描 ,我 们 宁愿 增加 1111 次 移动 。( 无 论 如 何 , 如 果 h,- :接近 N ,第 一 次 扫描 是 非常 
快 的 ,因为 NT-S=(N-h,-1)+*…+(N- ho)。) 


表 6 当 N=1000 时 ,算法 DD 的 近似 特性 





增 量 Ane B,. T 

1 6 249750 1 

17 1 65 41667 2 

60 6 1 158 26361 3 

140 20 4 1 262 21913 4 

256 64 16 4 1 362 20459 5 

576 192 48 16 4 1 419 20088 6 

729 243 81 27 9 3 1 378 18533 7 

512 256 128 64 32 16 8 4 2 1 493 16435 10 
500 250 125 62 31 15 7 3 1 516 7655 9 

501 251 125 63 31 15 7 3 1 558 7370 9 

511 255 127 63 31 15 7 3 1 559 7200 9 

255 127 63 31 13 7 3 1 436 7445 8 

127 63 31 15 7 3 1 299 8170 7 

63 31 15 7 3 1 190 9860 6 

31 15 7 3 1 114 13615 5 

513 257 129 65 33 17 9 5 31 561 6745 10 
257 129 65 33 17 9 5 3 1 440 6995 9 

129 65 33 17 9 5 3 1 304 7700 8 

65 33 17 9 5 3 1 197 9300 7 

33 17 9 5 31 122 12695 6 

683 341 171 85 43 21 11 5 3 1 S11 7365 10 
341 171 85 43 21 11 5 3 1 490 7490 9 

255 63 15 7 3 1 373 8620 6 

257 65 17 5 3 1 375 8990 6 

341 85 21 5 3 1 410 9345 6 

377 233 144 89 55 34 21 13 8 5 3 2 1 518 7400 13 
233 144 89 S55 34 21 13 8 5 3 2 1 432 7610 12 
377 144 55 21 8 3 1 456 8795 7 

365 122 41 14 5 2 1 440 8085 7 

364 121 40 13 4 1 437 8900 6 
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336 112 48 

306 170 90 45 18 
169 91 


273 123 121 $5 
190 84 37 

929 S05 209 109 
303 209 109 

209 109 





nm nn nN A DO 人 
OO ~ ~ oo QO OO ~ Cn 





M.A.Weiss[Comp.J. 34 (1991),88 一 91] 所 进行 的 广泛 的 实验 测试 明显 地 提 
示 , 对 于 增 量 2 -1,…15,7,3,1 由 算法 D 所 实现 的 平均 移动 次 数 近 似 地 同 N54 成 
正比 。 更 精确 地 说 ,Weiss 发 现 , 当 使 用 这 些 增 量 时 ,对 于 100 志 NN 夺 12000000, B, 
1.55 N54 一 4.48N + O/N34; 实 验 的 标准 差 近似 为 .065N54。 另 一 方面 , Marcin 
Ciura 的 子 序列 测试 表明 ,Sedgewick 的 序列 (11) 显 然 有 B,,.= O(N (logN)*) 或 者 更 
好 。 当 N 委 10' 时 ,序列 (11) 的 标准 差 惊 人 地 小 ,但 当 N 超过 10 时 , 它 不 可 思议 地 
爆发 性 地 增长 。 

利用 形 如 2* 一 1,2*+1 和 (11) 的 增 量 , 表 7 示 出 了 3 次 随机 实验 中 所 得 到 的 ， 
每 次 扫描 的 移动 次 数 的 统计 分 析 。 在 每 种 情况 下 ,使 用 相同 的 数 的 文件 。 在 3 种 情 
况 下 ,总 共 的 移动 次 数 盖 ,B, 达到 346152,329532,248788, 所 以 在 这 个 例子 中 序列 
(11) 显 然 是 优越 的 。 

表 7 每 遍 打 描 的 移动 :对 于 N=20000 时 的 实验 
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尽管 逐渐 地 人 们 更 好 地 理解 了 算法 D, 但 是 超过 30 年 的 研究 并 没有 能 找 出 任 
何 充 分 的 根据 ,以 得 出 关于 什么 增 量 序列 能 使 它 最 有 效 的 强 有 力 的 断言 。 如 宁 入 
小 于 1000 ,如 下 的 一 个 简单 规则 


令 ho = 1,hsri = 3h;+1, 且 当 思 11 > N 时 ,以 六 停止 (12) 


似乎 与 任何 其 它 增 量 一 样 好 。 对 于 更 大 的 NN 值 ,可 以 推荐 Sedgewick 的 序列 (11)。 
然而 ,N.Tokuda 使 用 L2.254h, | 代替 式 (12) 中 的 3 六 ,得 到 更 好 的 结果 ,甚至 可 能 有 
NlogNN 的 阶 。 请 见 Information Processing 92 1(1992 ) ,449 一 437。 


表 插入 ”现在 我 们 放下 Shell 方法 ,来 考虑 有 关 直 接 插 人 的 其 它 类 型 的 改进 。 
对 一 个 给 定 算法 进行 改进 的 最 重要 的 一 般 方式 之 一 是 ,仔细 地 检查 它 的 数据 结构 ， 
因为 ,为 避免 不 必要 的 操作 而 进行 的 数据 结构 的 再 组 织 , 常 常 取得 实质 性 的 改进 。 
2.4 节 中 有 这 个 一 般 想 法 的 进一步 讨论 ,并 研究 了 一 个 颇 为 复杂 的 算法 ;我 们 考虑 
如 何 把 它 应 用 于 像 直 接 插 入 这 样 非常 简单 的 算法 。 对 于 算法 S, 什 么 是 最 适当 的 数 
据 结 构 呢 ? 

直接 插 人 包括 两 个 基本 的 操作 : 

i) 扫描 一 个 有 序 文件 , 找 出 小 于 或 等 于 一 个 给 定 键 码 的 最 大 键 码 ; 

ii) 插入 一 个 新 的 记录 到 一 个 有 序 文件 的 指定 部 分 。 

这 个 文件 显然 是 一 个 线性 表 ,而 算法 S 通过 使 用 顺序 分 配 ( 见 2.2.2 小 节 ) 来 处 
理 这 个 表 ; 因 此 ,为 完成 每 一 个 插入 操作 ,必须 移动 大 约 一 半 记 录 。 另 一 方面 ,我 们 
知道 ,链接 分 配 ( 见 2.2.3 小 节 ) 对 插入 比较 理想 ,因为 仅仅 需要 改变 较 少 的 链接 ;而 
昌 另 一 个 操作 , 即 顺序 扫描 ,对 链接 分 配 也 大 致 像 顺 序 分 配 一 样 容易 进行 。 由 于 心 
是 从 同一 方向 来 扫描 这 张 表 , 故 只 需要 单 路 链接 。 因 此 得 出 结论 ,对 于 直接 插入 ， 
“适用 的 ”数据 结构 是 单 路 链接 的 线性 表 。 不 难 修正 算法 S, 以 便 按 递增 的 次 序 来 扫 
描 这 个 表 : 

算法 工 ( 表 插 入 ) ”假定 记录 R1,…, Rw 包含 键 码 Ki,…,KN, 且 链接 字段 
L,,… ,Ln 能 容纳 数字 0 到 N ;在 这 个 文件 的 开始 处 ,一 个 人 为 的 记录 Ro 中 有 另 一 个 
链接 字段 Lo。。 本 算法 设置 链接 字段 ,使 得 这 些 记 录 以 递增 的 顺序 链接 在 一 起 。 于 
是 ,如 果 p(1)…p(N) 是 使 得 KK, 三 … 声 Kpn) 的 稳定 的 排列 , 则 这 个 算法 将 得 出 

Lo = p(1); Loo) = p(i+1),， 对 于 1 三 i 人 NN; Lp(n)=0 (13) 

L1.[ 对 ; 进行 循环 ] 置 Lo<—N ,Ln<-0(Lo 起 表 “ 头 ”的 作用 ,0 起 空 链 的 作用 ; 
因此 这 个 表 实 质 上 是 循环 的 )。 对 于 j=N-1,N 一 2,…,1, 执 行 步 最 L2 
到 L5; 然 后 终止 本 算法 。 

L2.[ 对 p,q,K 赋值 ] 置 p< 一 Lo,g<0,K< 一 K;( 在 下 列 步 又 中 ,通过 把 KK 按 递 
增 次 序 同 以 前 的 键 码 进行 比较 ,来 把 R; 插入 到 链接 表 中 的 适当 位 置 。 变 量 
p 和 g 起 指向 这 个 表 的 当前 位 置 的 指针 作用 ,而 且 p= LL, 所 以 4 比 p 落后 
一 步 )。 
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L3.[ 比 较 K:K,] 如 果 天 委 开 , 则 转向 步骤 L5( 已 经 在 这 个 表 的 R, 和 RR, 之 
间 ,为 记录 R 找到 了 所 要 求 的 位 置 )。 

L4.[ 磁 撞 ,9] 置 vo<p,pcL。 如 果 户 >0, 则 转 回 到 步 又 1L3( 如 果 p=0, 则 
K 是 当前 发 现 的 最 大 的 键 码 ; 因 此 记录 R 列 入 这 个 表 的 末 并 ,在 R。 和 Ro 
之 间 )。 

LS5.[ 插 入 表 中 ] 置 L,<j,L, 一 po。 | 


这 个 算法 是 重要 的 ,不 仅仅 因为 它 是 简单 的 排序 方法 ,而 且 还 因为 它 经 常 作为 


其 它 表 处 理 算法 的 一 部 分 出 现 。 表 8 示 出 了 当 对 16 个 数 进行 排序 时 开头 几 步 的 情 
况 。 习 题 32 给 出 最 后 的 链接 设置 。 


表 8 


表 插 入 的 例子 





程序 L( 表 插入 ) 我 们 假定 K; 存储 于 INPUT+ j(0:3) 中 ,Lj 存储 于 INPUT+ 


7(4:5) 中 。 rI1 二 j ,rl2 二 pp ;rl3=g;rA(0:3) 三 K。 


01 


KEY EQU 0:3 
LINK EQU 4:5 
START ENT1 N 1 L1. 对) 进行 御 环 。j) < 一 六 
ST1 INPUT(LINK) 1 Lo—N 
STZ INPUT + N(LINK) 1 Ln<—0 
JMP 6F 1 转 去 使 j 减 值 
2H LD2 INPUT(LINK) N-1 1L2. 对 p,q,K 峰 信 。p 一 Lo 
ENT3 0 N-1 gq<—0 
LDA INPUT, 1 N-1 K<—K, 
3H CMPA INPUT,2(KEY) B+N-1-A 1L3. 比较 K:K, 
JLE 5F B+N-1-A ”如果 KK 三 K,, 则 转 L5 
AH ENT3 0,2 B L4, 倍 入 p,q 。gq 一 上 p 
LD2 INPUT, 3(LINK) B pL, 
J2P 3B B 如 果 p>0, 则 转 L3 
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15 5H ST INPUT, 3 (LINK) N-1 15, 业 外表 中 Ls} 
16 ST2 INPUT, 1(LINK) N-1 Lp 

17 6H DEC1 1 N 

18 J1P 2B N N>jz1 | 


这 个 程序 的 运行 时 间 为 7B+14N - 3A -6 个 单位 ,其 中 N 是 文件 的 长 度 , A 
+1 是 自 右 到 左 极 大 值 的 个 数 ,B 是 原来 排列 中 反 序 的 个 数 (参考 程序 S 的 分 析 。 
注意 程序 L 不 重新 排列 内 存 中 的 这 些 记 录 ; 这 可 以 如 习题 5.2-12 中 那样 ,以 大 约 
20NN 的 额外 时 间 单 位 完成 之 ) 。 程 序 S 需 要 (9B+10N-3A-9)x 时 间 单 位 ,而 且 


由 于 B 约 为 二 N2? ,我 们 可 以 看 出 ,用 作 链 接 字段 的 额外 存储 空间 已 经 使 我 们 节省 了 


大 约 22% 的 执行 时 间 。 通 过 周密 的 程序 设计 ,还 可 以 再 节省 22% (见习 题 33) ,但 运 
行 时 间 仍 保持 同 N 成 比例 。 
下 而 对 至 今 所 做 的 工作 做 一 总 结 ”我 们 开始 于 一 个 简单 而 且 自 然 的 排序 算法 


S, 它 进行 了 大 约 二 N? 次 比较 和 地 N? 次 移动 。 一 方面 ,通过 考虑 二 又 插入 来 进行 下 
进 ,后 者 大 约 进行 NlgN 次 比较 和 地 N2 次 移动 。 通 过 “两 路 插入 "稍稍 改变 数据 结 


构 ,使 移动 次 数 减少 到 大 约 亏 N?。Shell 的 减少 增 量 排序 技术 对 于 在 实用 范围 中 的 


N ,使 比较 和 移动 次 数 减少 到 大 约 N76; 当 N 一 co 时 ,这 个 数 可 以 被 减少 到 阶 为 N 
(logN)*。 对 算法 S 进行 改进 的 另 一 条 途径 是 使 用 一 个 链接 的 数据 结构 ,结果 就 得 


到 表 插 人 方法 , 它 大 约 进行 于 N? 次 比较 ,0 次 移动 和 2N 次 改变 链接 。 


能 不 能 把 这 些 方法 的 最 好 特性 结合 起 来 ,使 之 既 像 二 叉 插 人 那样 把 比较 次 数 减 
少 到 Nlog 的 阶 数 ,又 像 表 插入 那样 减少 移动 的 次 数 呢 ? 答案 是 肯定 的 ,方法 是 采 
取 一 个 树 结构 的 排列 。 这 个 可 能 性 首先 是 由 D.J. Wheeler 于 1957 年 阐明 的 ;他 建 
议 使 用 两 路 插入 ,直到 有 必要 移动 某 些 数据 时 为 止 ;然后 ,不 去 移动 这 些 数据 ,而 是 
插入 指向 为 一 内 存 区 域 的 指针 ,而 且 同 样 的 技术 又 递归 地 应 用 到 所 有 有 待 插 入 到 这 
个 新 内 存 区 域 去 的 项 目 上 。Wheeler 最 初 的 方法 [ 见 A.S. Douglas, Comp. .2 
(1959),5j] 是 顺序 内 存 和 链接 内 存 的 一 个 复杂 组 合 , 且 带 有 可 变 大 小 的 节点 ;对 于 我 
们 的 16 个 例 数 ,将 形成 图 13 的 树 。 利 用 二 叉 树 ,一 个 类 似 的 但 较为 简单 的 树 插入 
方案 由 C. M. Berners-Lee, 大约 于 1958 年 独立 地 设计 出 来 [ 见 Comp.J. 3 (1960)， 
174,184]。 由 于 此 方法 以 及 它 的 改进 ,对 于 查找 和 排序 都 十 分 重要 ,所 以 我 们 将 在 
第 六 章 详细 地 讨论 它们 。 

另外 ,还 有 一 条 改进 直接 揪 入 法 的 途径 , 即 考虑 一 次 插 人 若干 个 项 目 。 例 如 , 假 
设 我 们 有 一 个 包含 1000 个 项 目的 文件 ,如 果 它 们 中 的 998 个 项 目 已 经 排 好 序 ,那么 
算法 S 还 要 再 对 整个 文件 进行 两 次 扫描 (首先 插入 Rs, 然后 插 人 Riooo)。 如 果 我 
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703 
图 13 Wheeler 树 揪 人 方案 示例 
们 首先 比较 Ro 和 Riooo ,看 哪个 更 大 ,然后 通过 对 这 个 文件 的 一 次 考察 来 插 和 人 它们 


俩 , 则 很 明显 可 以 节省 时 间 。 这 种 类 型 的 组 合 操作 ,大 约 包含 邱 N 次 比较 和 移动 ( 参 


见习 题 3.4.2-5) ,而 不 是 每 次 大 约 包含 方 N 个 比较 和 移动 的 两 次 扫描 。 


换 句 话说 ,一 般 说 来 ,对 于 要 求 长 时 间 的 查找 操作 ,进行 “分 批 处 理 “是 一 个 好 的 
想法 ,使 得 多 个 操作 可 以 一 起 完成 。 如 果 把 这 个 想法 引 向 其 自然 的 结论 ,就 会 重新 
发 现 通过 合并 进行 排序 的 方法 。 它 如 此 重要 ,因此 将 在 5.2.4 小 节 中 进行 讨论 。 


地 址 计算 排序 至此, 有关 简单 的 直接 插入 方法 ,已 详细 地 讨论 了 所 有 可 能 的 
改进 途径 ;但 是 让 我 们 再 考虑 一 下 下 面 的 情况 ! 假设 你 要 按照 作者 名 字 的 次 序 把 几 
十 本 书 放 到 书架 上 ,而 这 些 书 是 以 随机 的 顺序 给 你 的 。 当 你 放 书 时 ,你 自然 尝试 来 
估计 每 本 书 的 最 后 位 置 ,由 此 来 减少 比较 的 次 数 和 你 要 做 的 移动 。 而 且 如 采 你 通过 
比 需要 的 绝对 空间 稍稍 多 一 点 的 书架 空间 开始 ,整个 进程 将 会 稍微 更 有 效 些 。 

这 个 方法 首先 由 Isaac 和 Singleton 提出 来 用 于 计算 机 的 排序 ( 见 JACM 3 
(1956),169 一 174), 而 由 Tarter 和 Kronmal 进一步 加 以 发 展 ( 见 Proc. ACM Nat 1 
Conf. 21 (1966) ,331 一 337)。 

地 址 计算 排序 通常 要 求 同 N 成 比例 的 附加 存储 空间 ,或 者 用 来 保留 足够 的 空 
间 使 得 不 需要 做 过 多 的 移动 ,或 者 用 来 保留 辅助 的 表格 ,用 这 些 表格 帮助 处 理 键 码 
分 布 的 不 规则 性 ( 见 “ 分 布 计数 ”排序 ,算法 5.2D, 它 是 地 址 计算 的 一 种 形式 )。 如 末 
如 同 在 表 插 入 方法 中 那样 ,把 这 个 附加 的 存储 空间 提供 给 链接 字段 ,那么 ,也 许可 以 
最 好 地 使 用 它们 。 由 此 ,还 可 以 避免 为 输入 和 输出 开设 独立 的 区 域 ; 一 切 都 能 够 在 
同一 个 存储 区 域 中 完成 。 

根据 这 些 考 虑 ,我 们 主要 推广 表 插 入 ,但 这 里 保持 的 是 若干 张 表 ,而 不 仅仅 是 一 
张 。 每 张 表 被 用 于 键 码 的 某 些 范围 。 我 们 做 重要 的 假定 , 即 假定 这 些 键 码 都 是 相当 
均匀 地 分 布 的 ,而 不 是 不 规则 地 “聚集 起 来 的 ”: 把 键 码 的 所 有 可 能 值 的 集合 划分 成 
M 部 分 ,并 假定 一 个 给 定 的 键 码 落 入 一 个 给 定 部 分 的 概率 是 1/M。 然 后 ,提供 M 
个 表 头 的 附加 存储 ,而 且 每 一 个 表 就 像 在 简单 的 表 插 入 中 那样 来 处 理 。 

这 里 不 必 详 细 地 给 出 算法 ;这 个 方法 只 是 简单 地 以 把 所 有 表 头 置 为 A 开 始 。 当 
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每 个 新 项 目 进 入 时 ,首先 决定 它 的 键 码 落 入 M 个 部 分 中 的 哪 一 个 ,然后 就 像 在 算法 
L 中 那样 把 它 插 入 到 对 应 的 表 中 。 

为 了 说 明 这 个 方法 ,假设 前 面 示 例 中 的 16 个 键 码 被 分 成 M=4 个 范围 0 一 249， 
250 一 499,500 一 749,750 一 999。 随 着 键 码 KK ,KK，,… ,Ki 逐个 地 被 插入 ,我们 得 到 
下 列 的 配置 : 


4 个 项 目 之 后 8 个 项 目 之 后 ”12 个 项目 之 后 最 后 的 状态 
表 1: 061,087 061,087,170 061,087,154,170 061,087,154,170 
表 2: 275 275 ,426 275 ,426 
表 3: 503,512 503,512 503,509,512,653 503, 509, 512, 612, 653, 
677,703 
表 4: 897 ,908 897 ,908 765 ,897 ,908 


(以 下 的 程序 M 实际 上 是 以 相反 的 次 序 , 即 Kjs,… ,KK,, Kj, 来 插入 键 码 的 ,但 
最 后 的 结果 相同 )。 由 于 使 用 了 链接 存储 ,所 以 可 变 长 度 的 表 不 引起 存储 分 配 的 问 
题 。 如 孙 愿 意 , 所 有 的 表 都 可 在 最 后 组 成 一 个 表 ( 参 见习 题 35)。 


程序 M( 多 表 插 入 ) 在 本 程序 中 ,做 像 在 程序 L 中 一 样 的 假定 ,但 是 这 些 键 码 
必须 是 非 负 的 ,于 是 
0 委 天 < (BYTESIZE)’ 
通过 把 每 个 键 码 乘 以 一 个 适当 的 常数 ,这 个 程序 把 上 述 范围 分 为 XM 个 相等 的 部 分 。 
表 头 在 单元 HEAD+1 到 HEAD+M 中 。 


01 KEY EQU 1:3 

02 LINK EQU 4:5 

03 START ENT2 M 1 

04 STZ HEAD,2 M HEAD[ p |]<—A 人 

05 DEC2 1 M 

06 J2P x 一 2 M M 宇 p 宇 1 

07 ENT1 N 1 jo—N 

08 2H LDA INPUT, 1(KEY) N 

09 MUL = M(1:3) = N rA<| M. K,/BYTESIZE | 
10 STA x 十 1(1:2) N 

11 ENT4 0 N rls<rA 

12 INC3 HEAD+ 1 — INPUT,4 N qg<LOC(HEAD[ rA ]) 
13 LDA INPUT, 1 N KK, 

14 JMP 4F N 转 去 对 p 赋值 
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lS 3H 


18 4 


20 5H 


22 6H 


INPUT ,2(KEY) 
5F 

0 ,2 
INPUT, 3( LINK) 
3B 
INPUT, 3( LINK) 
INPUT, 1(LINK) 
1 

2B 
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在 K 志 KK,, 则 去 插入 
gp 

pLINK(g) 

如 果 不 是 表 的 末端 则 转移 
LINK(Q )<—LOC( R,) 
LINK(LOC( Rj))<—p 


N 宇 ; 宇 ! 1 


这 个 程序 是 对 一 般 的 M 写 的 ,但 是 , 倒 不 如 把 M 固定 在 某 个 合适 的 值 上 ; 例 
如 ,可 以 选择 M = BYTESIZE ,使 得 这 些 表 头 都 能 通过 一 条 MOVE 指令 来 清 零 ,并 用 一 
条 LD3 INPUT,1(1:1) 指 令 即 可 代替 08 行 ~11 行 的 乘法 序列 。 在 程序 L 和 程序 M 
之 间 最 值得 注意 的 差别 在 于 这 样 一 个 事实 , 即 当 不 需 进 行 比较 时 ,程序 M 必须 考虑 
一 个 空 表 的 情况 。 

用 M 个 表 节 省 了 多 少时 间 呢 ?程序 M 的 总 运行 时 间 为 7B+31N-3A+4M 
+2 个 单位 ,其 中 M 为 表 的 个 数 ,NN 为 被 排序 记录 的 个 数 , 而 A 和 忆 分 别 计 算 自 右 
到 左 的 极 大 值 个 数 和 每 个 表 键 码 当 中 的 反 序 个 数 ( 同 本 市 的 其 它 时 间 分 析 相 反 , 在 
这 里 把 一 个 非 空 排列 的 最 右 元 素 包 括 在 计数 A 中 )。 我 们 已 经 对 于 M =1 研究 了 


A 和 B, 当 时 它们 的 平均 值 分 别 是 Hi 和 (去) > )。 按 关于 键 码 分 布 的 假定 ,一 


给 定 的 表 在 排序 


bi 
因此 在 一 般 情况 下 A 和 B 的 平均 值 是 
“= MD, (A) (1!- 


us )(i) (1- 
利用 等 式 1.2.6-(20) 的 一 个 特殊 情 ; 
2 )( 
我 们 可 以 很 容易 地 计算 (16) 中 的 和 。 
了 Be = 


M 


恒等式 


的 
2) (2 2 


2 (2 


| 


一 “(pf (16) 


结束 时 恰 包 含 n 个 项 目的 概率 是 “二 等 式 "概率 
_ 十 ) 


(14) 


) H, (15) 


(17) 


而 且 习 题 37 导出 了 B 的 标准 差 。 但 (15) 中 的 和 是 更 困难 的 ,由 定理 1.2.7A, 我 们 


有 


。 0 。 
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SA 7 人 N +1I 
因此 
M? 1 N+l1 
A = M(H -ln M)+S, 0< 3 < N41(1- 襄 | (18) 


( 当 MSN 时 这 个 公式 实际 上 是 没有 用 的 ;习题 40 给 出 当 M = N/a 时 ,对 于 A 和 的 
渐 近 特性 更 详细 的 分 析 ) 。 

通过 组 合 (17) 和 (18) ,我 们 可 以 导出 当 N 一 co 时 对 于 固定 的 M ,程序 M 的 总 
的 运行 时 间 为 : 

min 3IN+ M+2 

ave 1.75N’°/IM + 3I1IN-3MHv+3MInM+4M-368-1.75N/M +2 

max 3.50N’*+24.5N+4M+2 

(19) 

注意 , 当 M 不 太 大 时 ,我 们 把 平均 有 时间 加 人 快 M 俯 ;M=10 大约 要 比 M=1 快 10 倍 1 
然而 , 极 长 时 间 比 平均 时 间 要 大 得 多 ;这 重申 了 关于 键 码 分 布 相当 均等 的 假定 ,因为 
当 所 有 记录 都 堆积 到 同一 个 表 时 ,出 现 了 最 坏 的 情况 。 


如 果 置 M = N , 则 平均 运行 时 间 近 似 于 34.36N; 当 M = FN 时 , 它 稍 大 些 , 近 


似 于 34.52N; 而 当 M=HN 时 , 它 近 似 于 48.04N。 习题 35 中 的 补充 程序 ,把 所 


有 的 M 个 表 链 接 成 一 个 表 ,其 额外 的 费用 分 别 把 这 些 时 间 升 高 到 44.99N ,41.95N 

和 52.74N( 注 意 这 些 MIX 时 间 单 位 中 ,有 10N 个 是 花费 在 乘法 指令 中 的 )。 人 仅仅 做 

人 钙 议 些 键 码 相当 好 地 歼 布 在 它们 的 范 肝 中 ,我 们 就 实现 了 一 个 阶 为 N 的 排序 方 装 。 
在 5.2.5 小 节 讨 论 了 对 于 多 个 表 插 入 的 一 些 改进 。 


习 驯 


1. [10」 算法 S 是 一 个 稳定 的 排序 算法 吗 ? 
2. [11] 如 果 把 步骤 S3 中 的 关系 “K 宇 K;” 改 为 “K > K,”, 则 算法 S 是否 仍 将 正确 地 排序 ? 
3. [30] 程序 S 是 不 是 用 MIX 所 能 编写 的 最 短 的 排序 程序 , 换 句 话说 ,是 否 有 实现 同样 效果 
的 一 个 更 短 的 程序 ? 
4.[M20j] 作为 六 的 一 个 函数 , 求 出 程序 S 的 极 小 和 极 大 运行 时 间 。 
>S5.[M27j 给 定 11,2,… ,NN| 的 一 个 随机 排列 作为 输入 , 求 程序 S 总 运行 时 间 的 生成 函数 gN 
(z)= 沁 pmx ,其 中 pm 是 程序 S 恰 好 花 & 个 单位 时 间 的 概率 。 此 外 对 给 定 的 NN, 计算 运行 时 间 
的 标准 差 。 
6. [23] 表 2 说 明 的 两 路 插入 方法 ,似乎 意味 着 除了 有 一 个 能 容纳 N 个 记录 的 输入 区 域 之 
8 906 e 
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外 ,还 有 能 容纳 达 2N+1 个 记录 的 一 个 输出 区 域 。 试 证 说 明 两 路 插 人 可 以 仅仅 使 用 足以 存放 N 
+ 1 个 记录 的 空间 来 完成 ,同时 包括 输入 和 输出 在 内 。 
7. [M20 1] 如果 41as…a, 是 11,2,… ,外 | 的 一 个 随机 排列 , 问 什么 是 |ay 一 1| +|as 一 2| 十 …: 
+ |a, 一 nn| 的 平均 值 (此 为 n 乘 上 在 一 个 排序 过 程 中 某 记录 所 走 过 的 平均 纯 距 离 )? 
8. {10] 算法 D 是 一 个 稳定 的 排序 算法 吗 ? 
9. [120」 对 应 于 表 3 和 表 4, 量 A 和 B 是 多 少 ? 程序 了 D 的 总 运行 时 间 是 多 少 ? 试 讨 论 在 这 种 
情况 下 Shell 方 法 相对 于 直接 插入 的 优点 。 
> 10.[22] 如 果 当 步骤 D3 开始 时 K, 宇 K;_，, 则 算法 DD 指定 了 许多 什么 贡献 也 没有 的 动作 。 
说 明 怎 样 修改 程序 D, 使 得 可 以 避免 这 些 多 余 的 计算 ,并 讨论 这 样 一 个 修改 的 优点 。 
11. LM10] 在 如 图 ]1 所 示 的 一 个 格 中 ,对 应 于 排列 125374869111012 的 通路 是 什么 ? 
12. [M20j 证 明 在 一 个 格 通路 和 楼 梯 通路 之 间 的 区 域 ( 见 图 11), 等 于 对 应 2 有 序 (2 - or- 
dered) 排 列 中 的 反 序 的 个 数 。 
13.[AM16] 说 明 怎样 把 权 放 者 到 一 个 格 的 水 平 线段 上 ,而 不 是 垂直 线段 上 ,使 得 在 格 的 一 条 
通路 上 水 平 的 权 之 和 ,是 对 应 的 2 有 序 排列 中 反 序 的 数目 。 
14.[M28 ] (a) 说 明 在 由 等 式 (2) 所 定义 的 和 中 , A,41=2A,,。(b) 如 果 我 们 置 r= ,= 
-2, 习 题 1.2.6-26 的 一 般 恒等式 简化 为 
5 ,= 1 (Yi) 
k V1l—4z 2x 





通过 考虑 和 式 >Aavz"” ,证明 
As,s 三 4 
P15. [HM33] 设 g,(z),g,(z)、h,(z) 和 和 有,(z) 是 对 从 (0,0) 到 (n,n) 的 ,长 度 为 2n 的 所 有 格 
通路 求 和 的 四 路 的 总 芭 数 其 中 的 权 如 图 11 所 示 定 义 , 它 受到 通路 上 诸 顶 点 的 某 些 限 制 :对 于 
h,(z), 设 有 限制 ,但 对 于 g,(z), 这 条 通路 必须 回避 所 有 使 i>j 的 顶点 (i,7);h,(z) 和 g,(z) 的 
定义 与 此 类 似 , 但 要 排除 0<i<n 的 所 有 顶点 (i,i)。 于 是 
go(z)= 1, gi(z) = xz, g2(2) = x 3 +2; Bl(z) = zypgo( 之 ) = zi 
ho(z)= 1, hi(z)= z+1, h(xz) = zi +z +3z+l1 
hi(z)= z+1, h,(z) = zx +z 
试 求 出 定义 这 些 函 数 的 递归 关系 ,并 使 用 递归 关系 来 证 明 
7n5 + 
30 
(因此 容易 找 出 i1,2,…,2n| 的 一 个 随机 2 有 序 排列 中 , 反 序 个 数 方差 的 精确 公式 ; 它 渐 近 于 
二 -和 
16. [LM24] 求 11,2,… ,ni 的 一 个 h 有 序 排列 中 , 反 序 的 极 大 个 数 的 公式 。 当 增 量 满足 整除 
性 条 件 (5) 时 ,在 算法 D 中 最 多 能 有 多 少 次 移动 ? 
17. [M21] 说 明 , 春 对 上 >s20 有 N=2 和 六 =25, 则 存在 112,…, NI 的 惟一 排列 ,使 由 算 
法 D 执行 的 移动 操作 个 数 取 极 大 值 。 试 求 描述 这 个 排列 的 一 个 简单 方式 。 
18. LHM24 」 对 于 很 大 的 N ,和 和 数 (6) 可 被 估计 为 


hh (1)+h',(1) = 


n 
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2 N212 N32 1/2 
4 和 + 
当 N 和 zt 固定 且 ho=1 时,h,-1,… ,ho 的 什么 实数 值 使 这 个 表达 式 取 极 小 值 ? 
19. [M25 ] 在 程序 D 的 计时 分 析 中 , 当 增 量 满足 整除 性 条 件 (5) 时 , 量 A 的 平均 值 是 多 少 ? 
20. [M20 ] 证 明定 理 K 可 从 引 理 工 推 得 。 
21, [M25] 设 h 和 kk 是 互 索 的 正 整数 ,并 且说 一 个 整数 是 可 生成 的 ,如 果 对 于 某 些 非 整 数 x 
和 yy, 它 等 于 xh + 的 话 。 试 证 明 ,n 是 可 生成 的 当 且 仅 当 hk-h-k-n 不 是 可 生成 的 (由 于 0 是 最 
小 可 生成 的 整数 ,因此 最 大 的 不 可 生成 的 整数 必定 是 hk-h-k&。 由 此 得 出 ,在 既是 h 有 序 又 是 & 有 
序 的 任何 文件 中 ,每 当 j) 一 i 宇 (h 一 1)(k 一 1) 时 ,有 KK; 三 K;)。 
22. [M30] 证 明 所 有 之 2(2: ~ 1) 的 整数 均 可 表示 成 
a0(25 — 1)+ a2t! 一 1)+as(22 — 1)+ 
的 形式 ,其 中 , 诸 a; 是 非 负 整数 。 但 25(2: -1) -1 则 不 能 这 样 表示 。 而 且 , 恰 有 2 1(2:+ ss 一 3) 
个 正 整数 是 不 能 以 这 样 的 形式 来 表示 的 。 
当量 2* -1 被 2*+1 代替 时 , 试 求 在 这 个 表示 之 下 类 似 的 公式 。 
> 23. LM22 ] 证 明 如 果 六 + 和 h,;1 互 这 , 则 当 算法 了 D 使 用 增 量 六 时 ,移动 次 数 是 OCNh,4s2h+1l 
h,)。 提 示 , 见 习题 21。 
24. [M42] 证 明 , 在 指数 3/2 已 不 能 再 降低 的 前 提 下 ,定理 P 是 最 好 的 。 
25. [M22] i1,2,…,n1} 有 多 少 排 列 既 是 3 有 序 的 又 是 2 有 序 的 ? 在 这 样 一 个 排列 中 反 序 的 
极 大 个 数 是 多 少 ? 在 所 有 这 样 的 排列 中 反 序 的 总 数 是 什么 ? 
26.[M35」 如 果 N 个 元 素 的 一 个 文件 是 3 有 序 . 3 有 序 和 7 有 序 的 , 则 它 能 有 多 于 六 个 反 序 
吗 ? 当 NN 很 大 时 , 试 估计 极 大 的 反 序 个 数 。 
27. [M41 ] (Bjorn Poonen) (a) 试 证 明 ,如 果 算 法 D 中 的 增 量 h, 中 有 mm 个 小 于 N12, 则 存在 
一 个 常数 c, 使 得 在 最 坏 情况 下 的 运行 时 间 是 Q(N!+* “VY”)。(b) 对 于 所 有 增 量 序列 ,结果 最 坏 的 
运行 时 间 是 Q(N (log Njlog log N)’)。 
28. [15] 从 程序 D 的 观点 看 ,以 及 考虑 平均 的 总 运行 时 间 , 表 6 中 所 示 的 增 量 序列 哪个 是 最 
好 的 ? 
29. [40] 对 于 NN=1000 以 及 各 种 1 值 , 试 求 h,-_1,…,hi,ho 的 经 验 值 ,对 于 它们 ,Bw. 是 你 
所 能 达到 的 最 小 值 。 
30. LM23 ] (V.Pratt)” ”如果 Shell 排序 中 的 增 量 集合 是 12?3”|12?3? < N|, 试 证 明 扫 描 次 数 近 


似 于 地 (logsN)(logsN) ,而 每 次 扫描 的 移动 次 数 至 多 是 N/2。 事 实 上 ,如 果 对 于 任何 一 次 扫描 


Ki ->K 则 将 总 有 Kj;34 ,Kj-24 过 Kj;<Kj- ;Kis4s Kir24; 所 以 可 以 简单 地 交换 多 -和 天 i， 
并 使 ; 增加 2A ,这 节省 了 算法 D 的 两 次 比较 。 提 示 : 见 习题 25。 
> 31. [251 为 Pratt 的 排序 算法 写 一 个 MIX 程序 (习题 30)。 试 借用 类 似 于 程序 D 中 的 那些 量 
A,B,S,T,N ,来 表达 它 的 运行 时 间 。 
32.[10] 如 果 表 8 中 的 表 插 入 排序 一 直 进 行 到 完成 为 止 , 则 Lo,Li,… ,Li 的 最 后 内 容 将 是 
什么 ? 
> 33. [25 ] 试 求 改进 程序 L 的 一 种 方法 ,使 得 主宰 它 的 运行 时 间 的 是 58 而 不 是 7B ,其 中 B 是 
反 序 的 数目 。 试 讨论 对 于 程序 S 的 相应 的 改进 。 
34. [MI10j] 验证 公式 (14)。 
35. [21] 遵循 程序 M, 写 一 个 MIX 程序 ,使 得 所 有 的 表 组 合成 一 个 表 。 你 的 程序 应 当 与 程序 


+ O08 。 
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L 中 完全 一 样 地 来 对 LINK 字段 置 值 。 

36. [18] 假设 MIX 的 字 节 大 小 是 100, 表 8 中 16 个 键 码 的 例子 实际 上 是 S03000 ,087000 ， 
512000,… ,703000。 当 M=4 时 试 针对 这 组 数据 ,确定 出 程序 L 和 M 的 运行 时 间 。 

37. [M25] 设 g, (xz) 是 nn 个 对 象 的 一 个 随机 排列 中 反 序 的 生成 函数 (参考 等 式 
5.1.1 一 (11))。 设 gnu(z MT 生成 图 数 。 证 明 


Dy gmx ) 半 2 = (Da ) 训 ) 

并 使 用 这 个 公式 导出 B 的 方差。 

38., [HM23] (R.M.Karp) 设 F(z) 是 一 个 概率 分 布 的 分 布 疼 数 , 且 F(0)=0 有 及 下 (1)=1。 
震 键 码 Ki,K,, ,KN 是 从 这 个 分 布 中 随机 地 独立 选择 的 ， 而 有 是 M=ceN ,其 中 c 是 常数 ， 入 -一 oo， 
试 证 明 当 下 充分 光滑 时 ,程序 M 的 运行 时 间 是 O(N)( 当 LMK |=j -1 时 ,一 个 键 码 K 被 插入 到 
表 ;中 ;这 以 FOj/M)-F((j 一 1)/M) 的 概率 出 现 。 正 文中 仅 讨 论 了 F(z)=x,0 二 x 二 1 的 情 
况 )。 

39.[BM16] 如 果 一 个 程序 的 运行 近似 地 需要 A/M + B 个 时 间 单 位 ,并 使 用 C+ M 个 内 存 
单元 , 则 怎样 选择 M 可 给 出 极 小 的 空间 Xx 时 间 ? 

p40. [HM24] 当 N 一 0% ,对 于 固定 的 wc,M= Nja 时 , 试 求 在 多 个 表 插 入 中 出 现 的 自 右 至 左 极 

大 值 平均 个 数 的 渐 近 值 , 即 等 式 (15)。 借 助 于 指数 积分 函数 Ei(z) = | etdi/i 来 表达 你 的 管 
案 ,并 且 展 开 到 O(N !) 的 绝对 误差 的 范围 内 。 

41. [HM26] (a) 证 明 (10) 的 头 (，) 个 元 紊 之 和 是 O(p*)。(b) 现 在 证 明定 理 1。 

42. [HM43 ] 假定 hg， 和 1 二 3 个 增 量 h,g 和 1 时 , 试 分 析 Shell 排序 的 平均 特性 。 头 一 


遍 扫 描 , 即 h 排序 ,显然 总 共 做 了 一 元 N2/ 庆 + O(N) 次 移动 。 


0 


b) 证 明 , 第 三 次 扫描 , 即 1 排序 ,做 了 y(h,g)N+ O(g hh ) 次 移动 ,其 中 
_ j hl 
J(h,g) = 十 于 (人 (4)(1- 4) 
>43.[25] 通过 使 测试 “i>>0” 在 步骤 S4 中 成 为 不 必要 的 ,习题 33 使 用 一 个 标记 来 加 速算 法 S。 
这 个 技巧 对 于 算法 D 不 适用 。 尽 管 如 此 , 试 证 明 在 步骤 DS 中 有 一 个 容易 的 方法 来 避免 对 “i>>0” 
的 测试 ,由 此 加 速 Shell 排序 的 内 循环 。 
44. [M25] 如 果 x = aa， 和 x = al …a’ 是 11,… ,ni} 的 排序 ,对 于 1 声 1 达 7 世 nn, 如 果 | a， 
… ,aj| 的 第 i 个 最 大 的 元 素 小 于 或 等 于 {a1 ,… ,aj | 的 第 i 个 最 大 的 元 素 , 则 说 AX 二 x ( 换 句 话说 ， 
对 于 所 有 的 j ,在 头 ;j 个 元 素 已 被 插入 之 后 ,如 果 x 的 直接 插入 排序 按 分 量 小 于 或 等 于 x 的 直接 
插入 排序 , 则 r 委 r )。 
a) 如 果 在 习题 5.1.1-12 的 意义 下 ,x 在 x 之 上 ,是 否 有 r 委 r ? 
b) 如 果 x 二 x, 是否 有 rs 之 r 人? 
c) 如 果 x 二 x, 是否 有 zt 在 x 之 上 ? 


5.2.2 通过 交换 进行 排序 


现在 问 过 来 讨论 5.2 节 开 头 提 到 的 第 二 类 排序 算法 : 交换 “或 " 换 位 "方法 , 它 
。 09 ， 
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系统 地 交换 反 序 的 元 素 对 偶 ,直到 不 再 存在 这 样 的 对 偶 为 止 。 

直接 插入 算法 5.2.1S 的 过 程 ,可 以 看 成 是 一 个 交换 方法 :我们 基本 上 把 每 个 新 
记录 R; 同 它 左边 的 相 邻 者 进行 交换 ,直到 它 插 入 到 适当 的 位 置 为 止 。 所 以 ,把 排序 
方法 分 成 各 种 类 型 ,诸如 “插入 ” “交换 ” “选择 ”等 ,其 界线 并 不 总 是 很 分 明 的 。 在 
这 一 小 节 将 讨论 以 交换 为 主要 特征 的 4 种 排序 方法 ,它们 是 :交换 选择 (“ 冒 泡 排 
序 ") ;合并 交换 (Batcher) 的 平行 排序 ); 分 划 交 换 (Hoare) 的 “快速 排序 ”); 以 及 基数 
交 挽 。 

冒 泡 排 序 ”也 许 通过 交换 进行 排序 的 最 明显 方法 是 比较 K, 和 K, ,如果 这 些 
键 码 不 是 顺序 的 ,就 交换 RI 和 R,; 然 后 对 记录 R, 和 Ri,R; 和 和 Rs 等 进行 相同 的 
工作 。 在 这 一 系列 操作 期 间 , 具 有 较 大 键 码 的 记录 势必 向 右 移动 ,而 且 事实 上 具有 
最 大 键 码 的 记录 将 移动 到 成 为 RN 为 止 。 重 复 这 个 过 程 ,就 得 到 在 位 置 RN_i、 
Rw _ ;等 处 的 适当 记录 ,使 得 所 有 记录 最 终 排 好 序 。 

图 14 示 出 了 对 于 16 个 键 码 503 087 512…703 进行 这 种 排序 的 方法 。 垂 直 地 
而 不 是 水 平地 表示 数 的 文件 ,并 以 RN 在 顶部 和 RR| 在 底部 ,是 适宜 的 。 这 个 方法 称 
为 “ 冒 泡 排序 ”, 因 为 较 大 的 元 素 上浮 ”到 它们 适当 的 位 置 , 同 “ 下 沉 排序 ”( 即 直接 插 
人 ) 相 反 。 在 下 沉 排序 中 ,元 素 下 沉 到 一 个 适当 的 位 置 。 骨 泡 排序 还 有 其 它 比 较 乏 


一 A Ca ™ ig) OO ~ 00 OO 
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图 14 进行 中 的 冒 泡 排 序 
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味 的 名 字 ,例如 称 为 "交换 选择 "或 “扩散 “等 。 

在 每 次 扫 过 这 文件 之 后 ,不 难看 出 ,上 边 的 所 有 记录 ,包括 最 后 被 交换 的 那个 记 
录 在 内 ,都 必然 处 于 它们 的 最 后 位 置 上 ,所 以 在 随后 的 扫描 中 无 须 考 察 它 们 。 图 14 
中 的 水 平 线 根据 这 个 观点 示 出 了 这 个 排序 的 过 程 ;例如 注意 ,在 第 4 趟 之 后 ,已 知 叉 
有 5 个 元 素 处 于 最 后 位 置 。 在 最 后 一 趟 扫描 时 已 全 然 不 实施 任何 交换 了 。 通 过 这 
些 考 察 ,我们 就 容易 地 系统 阐述 这 个 算法 了 。 


算法 B( 冒 泡 排 序 ) 适当 地 重新 排列 记录 RI,…, Rw; 在 排序 完成 之 后 ,它们 的 
键 码 将 是 有 序 的 , 即 Kj 二:… 志 Kw。 

B1.[ 初 始 化 BOUND] 置 BOUND<-N(BOUND 是 尚 不 知 其 记录 是 否 已 处 于 最 终 位 
置 上 的 最 高 下 标 ; 这 表示 此 刻 我 们 尚 一 无 所 知 )。 

B2.[ 对; 进行 循环 ] 置 :< 一 0, 对 j=1,2,… ,BOUND -1 执行 步骤 B3 ,然后 转 到 
步骤 B4( 如 果 BOUND= 1, 则 意味 着 直接 转 到 B4)。 

B3.[ 比 较 / 交 换 Ri :Ri 如 果 K;> Kj;41, 则 交换 R 一 一 R41, 并 置 1 一 j。 

B4. [是 否 还 要 交换 ?] 如 果 :=0, 则 此 算法 终止 。 否则 置 BOUND< ,并 返回 到 
步骤 B2。 | 





I< j< BOUND 
BE 












B2. 对 7 了 进行 循环 





B3. 比较 交换 R,: Rj 


图 15 冒 泡 排序 的 框图 


程序 B( 冒 泡 排 序 ) 如同 本 章 前 面 的 MIX 程序 一 样 ,我 们 假定 有 待 排序 的 项 目 
是 在 单元 INPUT+1 到 INPUT +N 中 。rI1 三 xz;rlI2 三 )。 


01 STRART ENT1 N 1 ”Bl1. 初 始 化 BOUND 。 tN 
02 1H ST1 BOUND( 1 :2) A BOUND 

03 ENT2 1 A ”B2. 对 j 进行 循环 。7 1 

04 ENT1 0 A t<0 

05 JMP BOUND A ”如 果 ;之 BOUND, 则 退出 

06 3H LDA INPUT,2 C ”BB3. 比 玖 /交换 Rj:Rj+) 

07 CMPA INPUT+ 1,2 C 

08 JLE 2F C ”如 果 kK; 志 K,;1, 则 不 交换 
09 LDX INPUT + 1,2 B Ri 

10 STX INPUT, 2 B —R; 


J 
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11 STA INPUT + 1,2 B “( 旧 的 R,)YR,+i 

12 ENT1 0 ,2 B dh 

13 2H INC2 1 C jj<j+1 

14 BOUND ENTX — x,2 A+C rX<j 一 BOUND( 被 修改 的 指令 ) 

15 JXN 3B A+C 对 1 过;j<BOUND 执行 步骤 B3 

16 4H J1P 1B A  ”B4. 是 否 还 要 交换 ? 如 果 :1>0, 则 转 B2 | 


冒 泡 排序 的 分 析 分 析 一 下 算法 B 的 运行 时 间 是 很 有 益处 的 。 在 计时 中 涉及 
了 3 个 量 :扫描 次 数 A ;交换 次 数 B; 以 及 比较 次 数 C。 如 果 输 入 的 键 码 是 不 同 的 ， 
并 处 于 随机 次 序 , 则 可 以 假定 它们 形成 {1,2,…,n| 的 一 个 随机 排列 。 从 反 序 表 
(5.1.1 小 市 ) 的 思想 可 推出 一 个 容易 的 方法 ,来 描述 在 一 个 冒 泡 排序 中 的 每 次 扫 找 
的 效果 。 


定理 I 设 41,a3,…,a, 是 和 1,2,…,n| 的 一 个 排列 ,并 设 51,b，，,…,b, 是 对 应 
的 友 序 表 。 如 林寺 洛 莽 序 算 涛 B 的 一 次 扫 揪 把 alaz…ay 变 成 天 列 a1a2…a2 , 则 从 
b156，… 6b 中 把 每 个 非 零 项 威 1 ,就 得 到 对 应 的 反 序 表 4b16>…b'。 

证 明 如 果 有 一 个 较 大 的 元 素 居 于 a; 之 前 , 则 居于 前 面 的 最 大 元 素 就 同 它 进 
行 交换 ,所 以 5b。 减 1。 男 一 方面 ,如 果 没 有 较 大 的 元 素 居 于 a; 之 前 , 它 就 决 不 同一 
个 较 大 的 元 素 交 换 , 所 以 5 保持 为 零 。 | 


于 是 ,通过 研究 在 诸 次 扫描 中 的 反 序 表 序 列 , 即 可 看 出 在 进行 冒 泡 排 序 期 间 发 
生 的 情况 。 例 如 ,对 应 于 图 14 的 逐次 的 反 序 表 是 : 
3183450403223210 
扫描 1 
2072340302112100 
扫描 2 (1) 
1061230201001000 
扫描 3 
0050120100000000 
等 等 。 因 此 如 果 516,…6。, 是 输入 排列 的 反 序 表 ,我们 必然 有 


A= 1+ max(bi,b,,..,0,) (2) 
B= b+ b+ +b, (3) 
C= cl+c 十 十 Ca (4) 
其 中 c; 是 在 第 7 次 扫描 开始 时 BOUND 一 1 的 值 。 借 助 于 反 序 表 来 表示 ,有 
cj = max{b;+ilb; 之 jj-1|-j ($) 


(见习 题 5)。 在 例 (1) 中 ,因此 有 A=9,B=41,C=15+14+13+12+7+5+4+3 
+2=7$。 对 于 图 14, 总 的 MIX 排序 时 间 是 960 x。 
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B( 在 一 个 随机 排列 中 的 反 序 的 总 数 ) 的 分 布 我 们 已 经 非常 清楚 的 ,所 以 只 剩 下 
A 和 C 有待 分 析 。 

A&k 的 概率 是 1/n! 乘 上 没有 宇 & 的 分 量 的 反 序 表 数 目 , 当 1 过 k 志 nn 时 即 是 
k” 1。 因此 恰好 要 求 & 次 扫描 的 概率 是 


At = i Mk 1)" (1)!) (6) 
由 此 可 计算 均值 避 A, ; 作 部 分 求 和 , 它 就 是 
A mt (7) 


其 中 P(n ) 是 在 等 式 1.2.11.3-(24) 中 求 出 的 其 渐 近 值 为 Vv xnf2 - 5 + O(1/Vn ) 的 


隐 数 。E.H. Friend 在 J/ACM 3 (1956),150 中 未 加 证 明 地 指出 了 公式 (7); 它 的 证 明 
由 Howard B. Demnuth 给 出 [博士 论文 (Stanford University,1956 年 10 月 ) ,64 一 68]。 
关于 A 的 标准 差 , 见 习题 7。 
比较 的 总 数 C 要 更 难处 理 些 ,我 们 将 仅仅 考虑 C..。。 对 于 固定 的 n, 令 请 (有 ) 
是 对 于 1 委 ;i 委 7” ,使 得 2<7J -1 或 六 +i-7 扫 & 的 反 序 表 加 …8 的 数目 ;于 是 
fi(k)= (j++k)I(j -1)”/*, 0<ZkZn-)} (8) 
(见习 题 8)。(5) 中 cj 的 平均 值 是 (> (ff(k) 一 f;(& 一 1)))/n!1; 进 行 部 分 求 和 , 然 
后 对 j 求 和 , 妈 导 出 公式 
cw= ("让 击 昨 70= ("2 -二 Dr 9) 


| 
2 I<jSn < Ncr<se 


这 里 淆 近 信 不 容易 确定 。 因 而 将 在 本 节 末 再 回 过 头 来 研究 它 。 
为 了 总 结对 于 冒 泡 排 序 的 分 析 , 以 上 和 以 下 所 导出 的 公式 可 以 写成 如 下 的 结 


果 : 
A= (minl,ave N ~ VxN/2 + O(1),max N) (10) 
B= (min 0,ave 4 (N? - N),max 3(N? - N)) (11) 


C= (min N - 1,ave 3(N2—N In N-(y+ln2-1)N)+ O(vVN), 


max 3(N? — NNN)) (12) 


在 每 种 情况 下 , 当 输入 已 处 于 有 序 时 即 出 现 极 小 值 ; 所 以 MIX 运行 时 间 是 8 A+7 8B 
+8 C+1=(min 8N+1,ave 5.75N*+ O(N log N),max 7.5N?+0.5N +1)。 

冒 泡 排序 的 改进 ”为 分 析 冒 泡 排序 做 了 大 量 的 工作 ;尽管 用 于 这 些 计算 的 技术 
征 有 教 益 的 ,但 结果 却 是 令 人 失望 的 ,因为 它 告诉 我 们 , 轩 泡 排序 全 然 不 是 非常 好 
的 。 同 直接 插入 相 比 (算法 5.2.1S) , 冒 泡 排序 需要 相当 复杂 的 程序 ,而 且 花 费 超过 
两 倍 的 时 间 1! 
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冒 泡 排 序 很 容易 就 可 找 出 某 些 缺陷 。 例 如 ,在 图 14 中 ,扫描 4 中 的 头 一 个 比较 
是 多 余 的 ,扫描 5 中 的 头 两 个 ,以 及 扫描 6 和 扫描 7 中 的 头 三 个 也 是 多 余 的 。 还 要 
注意 ,每 次 扫描 时 元 素 向 左 移动 决 不 能 多 于 一 步 ;所 以 ,如 果 开 始 时 最 小 的 项 目 正好 
靠近 右 端 , 则 我 们 就 被 迫 进行 最 大 次 数 的 比较 。 这 就 提出 了 “ 鸡 尾 混 合 排序 ”, 它 以 
相反 的 方 巾 交替 地 进行 扫描 ( 见 图 16)。 这 个 方法 略微 减少 了 进行 比较 的 平均 次 
数 。 在 这 方面 K.E. Iverson [A Programming Language (Wiley，1962) ,218 一 219] 已 
经 进行 了 有 趣 的 考察 :对 于 相反 方向 的 两 次 连续 扫描 ,如 果 jR; 和 R;; 1 彼此 不 交换 
的 一 个 下 标 , 则 R; 和 Rj; 1 必须 都 处 于 它们 最 后 的 位 置 ,而 且 它 们 都 不 必 进 行 任何 随 
后 的 比较 。 例 如 ,从 左 到 右 遍 历 432186975 得 出 321468759; 在 R, 和 RR; 
之 间 没 有 出 现 交 换 , 从 右 到 左 让 历 后 一 个 排列 , Rs 仍然 小 于 (新 的 )R;, 所 以 可 以 立 
即 得 出 结论 ,Rs 和 Rs 无 须 进行 任何 进一步 的 比较 。 


703 908 908 908 908 908 908 908 
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677 “765 ?703 ?765 765 765 765 765 
6l2 "677 67 ,703 703 703 703 703 
509 。62 62 。67 67 67 67 677 
154 。509 509 。62 612 ,653 653 653 
426 “154% 426 。 509 509 $612 62 62 
653 ®° 426 。 653 。 426 oo。 653 of 509 co 512 512 
275 。 653 ®% 275 。 653 % 426 512 3509 509 
897 。 275 。8978 275om 512 of 426o% 503 503 
170 0 897 S170 52 *275 ,503 YR6 46 
908 $ 170 。 $12 ww 170 co 503 if 275 275 275 
061 ,52 °154 ,503 ?170 1I70 170 170 
512 oof 061 只 503 LA 154 154 154 154 154 
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图 16 “ 鸡 尾 混合 排序 - 


但 是 这 些 改 进 中 没有 一 个 能 导出 比 直接 插入 更 好 的 算法 ;而 且 我 们 已 经 知道 ， 
对 于 很 大 的 N ,直接 插入 是 不 适当 的 。 另 一 个 想法 是 消除 大 多 数 的 交换 ;因为 在 一 
个 交换 期 间 大 多 数 元 素 都 只 不 过 左 移 一 步 , 故 通过 移动 下 标的 起 点 , 换 一 种 方式 考 
察 这 个 数组 ,就 可 以 得 到 同样 的 效果 ! 但 得 到 的 算法 仍 不 比 后 面 将 要 研究 的 直接 选 
择 算 法 5.2.3S 更 好 。 

简 言 之 , 冒 泡 排序 除开 它 迷 人 的 名 字 和 导致 了 某 些 有 趣 的 理论 问题 这 一 事实 之 
外 ,似乎 没有 什么 值得 推荐 的 。 
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Batcher 平行 法 ”如 果 想 要 有 一 个 其 运行 时 间 比 N 的 阶 数 快 的 交换 算法 ,就 需 
要 选择 某 个 不 相 邻 的 键 码 对 偶 (天 ; ,天 ) 进 行 比较 ;否则 ,就 需要 有 像 原 来 排列 的 所 


有 反 序 那样 多 的 交换 ,而 反 序 的 平均 数 为 了 (N? - N)。 考 察 可 能 的 交换 ,对 比较 序 


列 进行 编程 的 一 个 巧妙 方法 是 1964 年 由 K.E. Batcher 发 现 的 [Proc., AFIPS Spring 
Joint Computer Conference 32 (1968) ,307 一 314j]。 他 的 方法 并 不 是 十 分 显然 的 ,由 
于 只 进行 相当 小 的 比较 ,因此 需要 相当 错 绿 的 论证 ,才能 证 明 它 是 正确 的 。 我 们 将 
讨论 两 个 证 明 ,一 个 在 这 一 节 中 , 另 一 个 在 5.3.4 小 节 中 。 

Batcher 的 排序 方案 同 Shell 的 排序 有 些 相 似 , 但 是 比较 是 在 一 种 新 奇 的 途径 下 
完成 的 ,以 使 交换 的 扩散 成 为 不 必要 。 例 如 ,可 以 把 表 1 与 表 5.2.1-3 进行 类 比 ; 
Batcher 方法 达到 了 8,4,2 和 1 排序 的 效果 ,但 是 这 些 比 较 都 不 重 蕉 。 因 为 Batcher 
的 算法 实质 上 是 合并 排 好 序 的 子 序列 对 偶 , 故 可 以 称 做 “合并 交换 排序 "。 







疡 之 | 


M6. 对 Pp 进行 循环 


p=0 


M4. 比较 /交换 Ri+t1 :Riyatl 


图 17 算法 M 


算法 M( 合 并 交换 ) 适当 地 重新 排列 记录 R,,…, Rw; 在 完成 排序 之 后 ,它们 
的 键 码 将 是 有 序 的 :Kl 三 K, 二 … 志 Kn。 假定 N 宇 2。 

M1. [初始 化 p] 置 p< 一 2: ! ,其 中 :=|TlgN | 是 使 得 2 之 N 的 最 小 整数 (将 对 
P=2: ! ,2 实施 步骤 M2 到 M5)。 

M2.[ 初 始 化 g,r,d] 置 vo<2 ',r<0,d< 一 pp。 

M3.[ 对 i 进行 循环 ] 对 于 使 得 0 二 i<N-4d 和 i 人 p=r 的 所 有 i, 执 行 步骤 
M4。 然 后 转 到 步骤 M5( 这 里 i 人 p 指 的 是 : 和 p 二 进 表示 的 “逻辑 与 ”; 对 
每 个 二 进位 来 说 ,除非 i 和 p 两 数 在 该 位 上 的 值 都 为 1, 否则 结果 为 零 。 
例如 13A21= (1101), 和 (10101),= (00101),=5。 这 时 ,4 是 p 的 奇数 
倍 , 而 且 p 是 2 的 一 个 乘 方 ,使 得 i 人 p 关 (i+ 4d) 人 bp; 由 此 得 出 ,步骤 M4 
的 动作 可 以 以 任意 次 序 , 其 至 同时 对 所 有 有 关 的 i 来 完成 )。 

M4 .| 比较 /交换 Ri Ri 如 果 Kj;41> Kisia+r1; 则 交换 Rj 1 嘻 Rjtg+lo 

M5 .[ 对 9 进行 循环 ] 如 果 g 关 pp, 则 置 4 一 g 一 pp,g 一 gj/2,r 一 p, 并 返回 步 又 
M3。 
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M6.[ 对 p 进行 循环 ] (这 时 ,排列 开 ,K…KN 是 p 有 序 的 ) 置 p< 一 [ p/21。 如 
果 p>>0, 则 返回 到 M2。 1 
表 1 对 于 N=16 说 明了 本 方法 。 注 意 ,这 个 算法 实质 上 先 对 R;,R3,Rs,… 和 和 
R,, Ri ,Re… 独 立地 进行 排序 ;然后 ,对 p=1 实施 步骤 M2 到 M5 ,为 的 是 把 两 个 排 
好 序 的 序列 合并 在 一 起 ,从 而 完成 对 N 个 元 素 的 排序 。 
表 1 合并 交换 排序 (Batcher 方法 ) 


503 087 512 061 908 170 897 2735 653 426 154 $09 612 677 765 703 


A 


503 087 154 061 612 170 765 275 653 426 512 509 908 677 897 703 


203 087 154 061 612 170 765 275 653 426 512 509 908 677 897 703 
503 087 1S4 06! 612 170 $1!2 275 653 426 765 509 908 677 897 703 
154 (061 503 087 512 {70 612 275 653 426 765 509 897 677 908 703 


OC 


1394 061 503 087 512 170 612 275 653 426 765 509 897 677 908 703 





154 061 503 087 512 170 612 275 653 426 765 509 897 677 908 703 
Igsor ~/ ~~/ /~ ~~/ ~/ ~/ ~/ 


061 154 087 503 170 Si2 275 6!2 426 653 509 765 677 897 703 908 
061 154 087 S503 170 512 273 612 426 633 509 765 677 897 703 908 


061 154 087 275 170 426 503 509 512 653 612 703 677 897 765 908 


1 1 1 ~/ ~/ ~/ ~/ 


061 087 154 170 273 426 503 509 512 612 033 677 703 765 897 908 








为 了 证 明 在 算法 M 中 描述 的 比较 /交换 的 奇妙 序列 ,实际 上 能 对 所 有 可 能 的 输 
人 文件 RIR,… RN 排序 , 仅 仪 需要 证 明 , 当 p=1 时 步骤 M2 到 M5 将 合并 所 有 的 2 
有 序 文件 RIR,… Rv。 为 此 ,可 以 使 用 5.2.1 小 节 的 格 盘 通路 方法 (参见 图 11);11， 
2,… ,NN1 的 每 个 2 有 序 排列 惟 一 地 对 应 于 在 一 个 格 盘 图 示 中 从 (0,0) 到 (| Nj2|， 
LN/2j) 的 一 条 通路 。 图 18(a) 示 出 了 N=16 的 一 个 例子 ,对 应 于 排列 1324105 
1161371481591612。 当 对 于 p=1,g=2‘ 1,r=0,qdg=1l 执 行 步骤 M3 时 ,其 
效果 是 比较 (可 能 还 有 交换 )Ri:R，,R3:R4 ,等 等 。 这 个 操作 对 应 于 格 盘 通路 的 一 
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个 简单 变换 , 即 在 必要 时 相对 于 对 角 线 “折合 "该 通路 ,以 使 它 决 不 落 在 对 角 线 的 上 
面部 分 ( 见 图 18(b) 和 习题 10 中 的 证 明 )。 步 又 M3 以 后 的 沈 代 有 p=r=1, 以 及 ad 
=2: 1 一 1 ,2 一 1,…,1; 它 们 的 效果 是 比较 /交换 R,: 民 ;4 4, Ras: R444, 等 等 。 而 


且 也 有 一 个 简单 的 格 盘 解释 :把 这 条 通路 相对 于 对 角 线 下 方 (d + 1) 个 单位 处 的 


一 条 线 作 “ 折 谷 ”, 见 图 18(c) 和 (d) ;最 后 得 到 了 图 18(e) 中 的 通路 , 它 对 应 于 一 个 先 
全 排 好 序 的 排列 。 这 就 完成 了 关于 Batcher 算法 是 正确 的 一 个 “几何 证 明 ;我 们 可 
以 称 它 为 通过 折 警 进行 排序 ! 





(a) (b) 《C) (d) (€) 
图 18 ”Ratcher 方 法 的 一 个 几何 解释 ,N=16 
算法 M 的 一 个 MIX 程序 出 现 于 习题 12 中 。 可 惜 ,为 控制 比较 序列 所 需要 的 敌 
记 工 作 的 量 是 相当 大 的 ,所 以 这 个 程序 比 我 们 所 看 到 的 其 它 方法 效率 都 更 低 。 但 有 
一 个 重要 的 特性 可 补救 它 的 不 足 :在 允许 进行 并 行 计算 的 计算 机 或 逻辑 网 络 上 ,由 
步骤 M3 的 迭代 所 确定 的 所 有 比较 /交换 都 可 以 同时 地 完成 。 通 过 这 样 的 并 行 操作 ， 


排序 在 六 [lgN1(TlgN1+1) 步 内 完成 ,因此 这 大 体 同 任何 已 知 的 一 般 方法 一 样 快 。 


例如 ,对 于 1024 个 元 莱 使 用 Batcher 方法 可 在 仪 仅 55 个 平行 步 凤 内 进行 排序 。 与 
其 最 接近 的 竞争 者 是 Pratt 方法 (见习 题 5.2.1-30), 它 使 用 40 或 73 步 ,这 看 我 们 如 
何 计 数 ;如 果 我 们 允许 重 准 的 比较 ,只 要 不 允许 重 辣 的 交换 , 则 Pratt 方法 只 需要 40 
个 比较 /交换 循环 就 可 对 1024 个 元 紊 进行 排序 。 进 一 步 的 说 明 , 见 5.3.4 小 市 。 

快速 排序 ”Batcher 方法 中 的 比较 序列 是 预先 确定 的 ;每 次 比较 相同 的 键 码 对 
偶 , 而 不 管 关 于 这 个 文件 从 以 前 的 比较 中 已 经 知道 些 什 么 。 在 冒 泡 排序 中 ,尽管 算 
法 B 有 限 地 利用 了 以 前 的 知识 来 减少 它 在 这 个 文件 右 端 的 工作 ,但 大 体 上 仍 是 如 
此 。 现 在 我 们 转 到 一 种 十 分 不 同 的 策略 , 它 使 用 每 个 比较 的 结果 来 确定 下 一 次 要 比 
较 什么 键 码 。 这 样 一 种 策略 对 于 并 行 计 算是 不 合适 的 ,但 在 顺序 工作 的 计算 机 上 却 
是 十 分 有 效 的 。 

下 列 方法 的 基本 思想 是 取 一 个 记录 ,比如 说 Ri, 并 把 它 移动 到 在 排 了 序 的 文件 
中 它 将 占据 的 最 终 位 置 ,比如 说 位 置 ;。 在 确定 这 最 终 位 置 的 同时 ,也 重新 排列 其 
它 的 记录 ,使 得 带 有 较 大 键 码 的 记录 都 位 于 * 的 右边 , 带 有 和 较 小 键 码 的 则 位 于 ;的 
左边 。 这 样 一 来 文件 就 将 以 这 样 一 个 方式 被 划分 , 即 原 来 的 排序 问题 归结 成 两 个 较 
简单 的 问题 ,就 是 对 R…R, 1 排序 ,以 及 (独立 地 ) 对 R,41… RN 排序 。 可 以 应 用 同 
一 技术 到 这 些 子 文件 中 的 每 一 个 上 ,直到 这 一 作业 完成 时 为 止 。 
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把 文件 分 划 成 左 和 右 子 文件 有 香干 个 方法 。 下 面 由 R. Sedgewick 给 出 的 方案 ， 
似乎 是 最 好 的 ,其 原因 当 分 析 此 算法 时 就 会 清楚 了 。 保 持 两 个 指针 i 和) ,而 且 开始 
时 i=2 和 j=N。 如 果 R; 在 分 划 之 后 最 终 要 成 为 左 子 文件 的 一 部 分 (通过 比较 天 
和 Ki 我 们 可 知道 这 一 点 ), 则 i 增 1, 并 且 继 续 进 行 直 到 册 到 一 个 属于 右 子 文件 的 记 
录 R; 为 止 。 类 似 地 ,j 减 1 直到 过 到 属于 左 子 文件 的 一 个 记录 R; 为 止 。 如 果 < 
7 ; 则 交换 R; 同 R, ;然后 以 同样 方式 处 理 下 一 记录 ,“ 两 涉 点 蜡 ”" 直 到 i 宇 j。 通 过 交 
换 R; 同 Ri ,最终 地 完成 这 个 分 划 。 例 如 ,试看 对 于 16 个 数 的 文件 所 发 生 的 情况 
(为 了 指出 i 和 j 的 位 置 ,K; 和 KK 已 经 以 黑体 字 标 出 )。 


2 


+ 
初始 文件 [503 087 
第 1 次 交换 503 087 
第 2 次 交换 503 087 
第 3 次 交换 503 087 
指针 交叉 503 087 
分 划 后 的 文件 [275 087 


Q1. 初始 化 
Q9. 直 接 插 入 排序 
栈 空 


括 弧 指出 了 仍然 需要 加 以 排序 的 子 文件 ; 粗 方 括 弧 标 出 当前 感 兴趣 的 子 文件 。 在 一 


061 
061 
061 
061 
001 
061 


新 阶段 


908 
908 
908 
426 
426 


426 


170 897 
170 897 


170 897 


170] 503 


273 033 
273 633 
273 033 
27S 653 
897 653 


[897 653 


426 
426 
426 
908 
908 
908 


图 19 分 划 交 换 排序 (快速 排序 ) 
表 2 示 出 了 怎样 通过 这 种 方法 ,用 11 个 阶段 把 我 们 的 示例 文件 完全 排 好 序 。 方 


509 
509 
309 
309 
309 
509 


612 677 765 703 


两 个 子 文件 的 


长 度 都 入 MM 


> 


台 计 算 机 内 ,当前 的 子 文件 可 以 通过 边界 值 ( ,7 ) 表 示 , 而 其 它 的 子 文件 通过 附加 的 
对 偶 (4 ,ri ) 的 一 个 栈 来 表示 。 每 次 分 划 这 个 文件 ,就 把 较 长 的 子 文件 压 人 栈 , 并 对 
另 一 个 较 短 的 子 文件 着 手 进行 工作 ,直到 得 到 非常 容易 排序 的 得 文件 为 止 ; 这 个 策 
略 确 保 栈 决 不 包含 多 于 lg N 个 项 目 ( 见 习题 20)。 
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表 2 快速 排序 





512 061 908 170 897 273 633 134 
154 061 426 170】 503 [897 312 


154 061) 275 426 503 [897 512 


1541 426 503 [897 512 


1S4 426 503 [897 312 
426 503 {897 S512 


503 (765 512 





503 {677 512 
503 〖509 512} 
509 £653 512 | 
509 【512 612】 653 


509 S12 612 606033 





刚才 描述 的 排序 过 程 可 以 称 做 分 划 交 换 排 序 , 它 是 由 C.A.R.Hoare 提出 来 的 。 
在 所 有 已 经 发 表 过 的 排序 方法 中 ,他 的 有 趣 的 论文 [Comp.J.5 (1962) ,10 一 15] 中 所 
讨论 的 方法 是 研究 最 深 的 之 一 。Hoare 把 他 的 方法 称 为 “快速 排序 ” ;这样 一 个 名 称 
并 非 不 当 , 因 为 ,这 个 计算 的 内 循环 在 大 多 数 计算 机 上 都 是 极 快 的 。 在 一 个 给 定 的 
阶段 ,所 有 比较 都 针对 同一 个 键 码 进行 ,所 以 这 个 键 码 可 保存 在 一 个 寄存 器 中 。 在 
比较 之 间 只 须 改变 一 个 下 标 。 而 且 数 据 移 动 的 数量 是 十 分 合理 的 ;例如 , 表 2 中 的 
计算 仅 做 17 次 交换 。 

额外 的 筹 记 (用 来 控制 i 、; 和 栈 ) 并 不 困难 ,但 它 使 得 快速 排序 分 划 过 程 最 适合 
于 很 大 的 Ni; 因 此 在 子 文件 已 经 变 短 之 后 ,下 列 算法 使 用 另外 的 策略 。 

算法 Q( 快 速 排序 ) 适当 地 重新 安排 记录 R ，…RnN; 在 排序 完成 之 后 ,它们 的 
键 码 将 是 有 序 的 , 即 K| 声 … 志 Kr。 需要 有 至 多 Llg Nj 个 项 目的 一 个 辅助 栈 作为 临 
时 存储 。 本 算法 遵循 上 面 正文 中 所 述 的 “快速 排序 "分 划 过 程 ,但 为 了 提高 效率 已 稍 
做 修改 : 

a) 假定 存在 人 为 的 键 码 Ko= -co 和 并 Niri= +co 使 得 

Ko 委 开 过 K 开 NI 对 于 1<i<N (13) 

(允许 相等 )。 

b) 具有 M 个 或 更 少 个 元 素 的 子 文件 ,直到 这 个 过 程 真 正 结束 之 前 都 保持 未 排 
序 。 然 后 使 用 直接 插入 的 一 次 扫描 产生 最 后 的 次 序 。 其 中 M 宇 1 是 一 个 参数 , 它 应 
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像 以 下 正文 所 述 的 那样 进行 选择 (由 R. Sedgewick 给 出 的 这 一 思想 ,可 节省 某 些 开 
销 , 如 果 我 们 直接 应 用 直接 插入 到 每 个 小 的 子 文件 , 则 这 个 开销 将 是 需要 的 ,除非 访 
问 的 局 部 性 是 重要 的 )。 
c) 交换 具有 相等 键 码 的 记录 ,尽管 这 样 做 并 非 严 格 必 要 (由 R.C.Singeton 给 出 
的 这 一 思想 ,保持 了 内 循环 的 快速 ,而 且 当 存在 相等 的 元 素 时 ,帮助 分 开 近 乎 一 半 的 
子 文件 ;参见 习题 18 ) 。 
Q1. [初始 化 ] 如 果 六 科 M , 转 到 步骤 Q9。 否 则 置 栈 为 空 ,并 置 /< 一 1,r 一 NN。 
Q2.[ 开 始 新 阶段 ] (现在 希望 对 子 文件 R,… RR, 进行 排序 ;从 算法 的 本 性 出 
发 ,有 r 宇 1 + M ,而 且 对 于 ! 寺 i 才 7,K_( 寺 KK,41) 置 ;< < 六 +T; 
并 置 K< 一 Ki,( 下 文 讨论 了 对 KK 另外 的 选择 ,它们 可 能 是 更 好 的 )。 
Q3.[ 比 较 K,:K] (此 时 这 个 文件 已 被 重 排 ,使 得 
对 于 1-1 达 i, KK， 对 于 jj 三 kr+l, KK, (14) 
且 /过 i<j) i 增 1; 其 后 如 果 K;<K, 则 重复 该 步骤 (由 于 开 ; 之 天 ,此 和 迭代 
必定 以 i 二 j 结束 )。 
Q4.[ 比 较 K:K;] j 减 1; 其 后 如 果 KK < K;, 则 重复 此 步骤 (由 于 天 之 开 ; -1 该 
迭代 必定 以 j 宇 i 一 1 结束 )。 
Q5. [测试 1:7] (这 时 , 除 对 于 =i 和 k=j 外 ,(14) 成 立 ; 而 且 多 ;之 开 之 开 i， 
"之 j 之 i 一 1 之 1) 如 果 ;7 三 i ,交换 Ri 一 Ri ,并 转 到 步骤 Q7。 
Q6.[ 交 换 ] 交换 Ri 一 Ri 并 转 回 步骤 Q3。 
Q7.[ 压 入 栈 ] (现在 子 文件 R,…R,…R, 已 经 被 分 划 , 使 得 对 于 ! -1 委 & 魏 )， 
Ki 全 K; 且 对 于 ;二 kr +1,K; 二 Ki) 如 果 7r 一 jj 之 j -1>M, 则 把 (j++1， 
-~) 揪 到 栈 顶 上 , 置 -一 j ~1, 并 转 到 Q2。 如 果 j7 一 二 rr 一 7> M, 则 把 (7，,j 
-1) 揪 入 到 栈 顶 上 , 置 /一 ;+1, 并 转 到 Q2( 在 栈 上 的 每 个 项 目 (a ,5b), 是 在 
某 个 将 来 的 时 刻 对 子 文件 R。… R 排序 的 一 个 请 求 ) 。 和 否则 如 果 -7 > M 
ZJ 一, 置 /< 二 )+1l1 并 转 到 Q2; 或 者 如 果 J) -71>MZr-h) 置 re 一 1 并 


转 到 Q2。 
Q8.[ 弹 出 栈 ] 如 果 这 个 栈 不 空 , 则 撤销 它 顶 部 的 项 ( 放 ,r ), 置 i 一! ,rr ， 
并 返回 步骤 Q2。 


Q9.[ 直 接 插入 排序 ] 对 于 j=2,3,…NN, 如 果 Kj;-1> K;, 则 进行 下 列 操作 : 置 
KKj,R< 一 Rj,i< 一 j 一 1; 然 后 Ri+1 厂 Ri 并 且 i<i--1, 一 次 或 多 次 直到 
K; 三 KK ;然后 置 R, ;一 R( 这 是 如 同 习 题 5.2.1 一 10 和 答案 5.2.1-33 所 提 
议 的 那样 修改 过 了 的 算法 5.2.1S。 如 果 M =1, 则 步骤 Q9 可 以 省 略 。 警 
110 ， 
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告 : 最 后 的 直接 插入 可 以 掩盖 步骤 Q1 一 Q8 中 的 失误 ;不 要 仅仅 由 于 一 个 实 
现 给 出 正确 的 答案 就 信任 它 )。 | 


对 应 的 MIX 程序 是 相当 长 的 ,但 并 不 复杂 。 事 实 上 ,大 部 分 代码 是 专门 用 于 步 
又 Q7 的 , 它 仅 仅 以 一 种 非常 直截了当 的 方式 来 摆弄 那些 变量 。 


程序 Q (快速 排序 ) ”有 待 排序 的 记录 在 单元 INPUT+ 1 到 INPUT +N 中 ;假定 单 
元 INPUT 和 INPUT+ N+1 分 别 包 含 MIX 中 最 小 和 最 大 可 能 的 值 。 栈 保存 在 单元 
STRCK+ 1,STRCK+ 2,… 中 ;关于 栈 所 需 单元 的 精确 数目 ,见习 题 20。r12 寺 1, rl3 二 
r ,r14 夺 i ,r15 寺 7 ,r16 圭 栈 的 大 小 ,rA 三 K 三 R。 我 们 假定 N>M。 





A EQU 2:3 栈 元 系 的 第 一 个 分 量 
B EOU 4:5 栈 元 素 的 第 二 个 分 量 
01 START ENT6 0 1 QI1. 初始化。 置 栈 为 空 
02 ENT2 1 1 置 /一 1 
03 ENT3 N 1 置 < 一 六 
04 2H ENTS 1,3 A Q2. 开始 狐 有 阶段。 置 j<r+ 1 
05 LDA INPUT,2 A 置 K 一 K,， 
06 ENTA 1,2 A 置 i/+1 
07 JMP OF A 转 Q3 并 省 略 “i< 一 i +1” 
08 6H LDX INPUT ,4 B Q6. 交换 
09 ENT1 INPUT ,4 B 
10 MOVE INPUT ,5 B 
11 STX INPUT,5 B Ri< 一 一 及 ; 
12 3H INC4 1 C -A “Q3. 比 较 K;:K。 置 1< 呈 i+1 
13 OH CMPA INPUT,4 C 
14 JG .3B C- 如 果 KK > K;, 则 重复 
15 4aH DECS 1 C-C Q4. 比 科 K:K,。 置 jj 一 1 
16 CMPA INPUT,S5 C - C 
17 JL 4B C-C 如 果 K < K;, 则 重复 
18 SH ENTX 0,5 B+A QS5. 测试 i:] 
19 DECX 0,4 B+A 
20 JXP 6B B+A 如 果 ;之 i, 则 转 Q6 
21 LDX INPUT,5 A 
22 STX INPUT ,2 A RR,; 
23 STA INPUT,5 A RR 
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4H 


1H 
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8H 


9H 
2H 


3H 
4H 
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STACK, 6(A) 
一 1,5 
STACK ,6(B) 
1 ,5 

2B 

8F 

4B 

1 

STACK ,6(B) 
1,5 
STACK,6(A) 
—1,5 

2B 

STRACK ,6(R) 
STACK ,6(B) 
1 

2B 

2 一 
INPUT + N,5 


INPUT + N—-1,5 


6F 

N—1,5 
INPUT ,4 
INPUT + 1 ,4 


二 记过 光源 


由 
+ 空 > 


~ 


、 


、 


mm wm 9 


Q7. 压 人 烧 
rl4<—r—-;-M 
rIL<7 一 -AM 


如 果 -> -7 二 7 - 7, 则 跳 转 
如 果 M 宇 ;一 /1>r 一 j, 则 转 Q8 
如 果 ;一 /> M 宇 7r -j, 则 跳 转 
(现在 j-/>r-;>M) 


(7,j 一 1) 全 栈 

置 /< 二 7 +1 

转 Q2 

如 果 M 宇 r - j 宇 j 2, 则 转 Q8 
如 果 /一 ;> MM 之; -1, 则 跳 转 
(现在 rr-j 宇 -1/>M) 


(+1l,r) 之 栈 
置 r< 7 一 1] 

转 Q2 
Q8. 弄 上 内 栈 


(/ ,7) 寺 栈 

如 果 栈 不 空 则 转 Q2 

Q9. 直接 插 人 排序 。j<-2 
KK,,R<—R, 

(在 这 个 循环 中 ,rl5 寺 ; - N) 
如 果 K 宇 K,- 1, 则 跳 转 

置 ;< -1 


站 Ri IR 
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58 DEC4 1 FE 置 ?< 一 1 

59 CMPA INPUT,4 FE 

60 JL 4B E 如 果 K < K,, 则 重复 
61 5H STA INPUT+ 1,4 D R11<R 

62 6H INCS 1 N-1 

63 J5NP 2B N-1 2<j<N | 


“快速 排序 ”的 分 析 用 程序 Q 表示 的 计时 信息 ,不 难 利用 基 尔 霍 夫 守 和 恒定 律 
(参见 1.3.3 小 节 ) 和 压 入 栈 的 每 一 个 信息 终归 又 被 撤销 这 一 事实 导出 。 基 和 尔 德 夫 
定律 应 用 于 步骤 Q2 还 表明 


A=1+(S +A”)+(S-S +A’)+S=2S+l1+A +A- (15) 
因此 总 共 的 运行 时 间 为 
24A+11B+4C+3D+8E+7N+9S 单 位 


其 中 

A = 分 划 阶 段 数 ; 

B= 在 步骤 Q6 中 的 交换 数 ; 

C= 在 进行 分 刘 时 所 作 比 较 数 ; 

DD= 在 直接 插入 ( 步 台 Q9) 期 间 K;-_1>>K; 的 次 数 ; 

已 = 被 直接 插 人 消去 的 反 序 数 ; 

S= 某 项 压 人 栈 的 次 数 。 (16 ) 

通过 分 析 这 6 个 量 ,就 能 对 参数 M 进行 精巧 的 选择 , M 是 用 来 确定 直接 插入 
和 分 划 之 间 的 “ 阐 值 "的 。 这 个 分 析 是 特别 有 教 益 的 ,因为 这 个 算法 比较 复杂 ;揭示 
这 个 复杂 性 是 阐明 重要 技术 的 一 个 好 方法 。 然 而 , 非 数 学 方面 的 读者 ,请 跳 到 等 式 
(25)。 

像 在 这 一 章 中 大 多 数 其 它 的 分 析 那 样 ,假定 有 竺 排序 的 这 些 键 码 是 不 同 的 ; 习 
题 18 指出 ,这 些 键 码 之 间 的 相等 性 并 不 严重 地 损害 算法 Q 的 效率 ,而 且 事 实 上 它们 
似乎 还 有 助 于 提高 效率 。 由 于 这 个 方法 仅 依赖 于 键 码 的 相对 次 序 ,也 可 以 假定 , 它 
们 只 不 过 是 在 某 种 次 序 下 的 |1,2,…,N|。 

我 们 可 以 通过 考虑 最 初 分 划 阶 段 的 行为 来 着 手 解决 这 个 问题 ,这 个 最 初 的 阶段 
使 我 们 头 一 次 到 Q7 去 。 一 旦 已 经 实现 了 这 个 分 划 , 则 如 果 原 来 的 文件 是 在 随机 次 
序 下 的 ,RI…R;_1 和 R;;1… Rw 两 个 子 文件 也 将 是 在 随机 次 序 下 ,因为 在 这 些 子 文 
件 中 元 素 的 相对 次 序 对 分 划算 法 没有 影响 。 因 此 随后 的 分 划 的 贡献 可 以 通过 对 N 
用 归纳 法 确定 (这 是 一 个 重要 的 发 现 , 因 为 某 些 违背 这 个 性 质 的 其 它 算法 已 经 证 明 
是 相当 慢 的 ; 见 Computing Surveys 6 (1974) ,287 一 289 ) 。 

设 * 是 头 一 个 键 码 K, 的 值 , 并 假定 K,,…KK, 中 恰 有 :个 大 于 s( 记 住 正 被 排序 
的 键 码 是 整数 11,2,…,Ni)。 如 果 s=1, 则 容易 看 出 在 分 划 的 头 一 阶段 发 生 了 什么 
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情况 :步骤 Q3 被 执行 一 次 ,步骤 Q4 被 执行 N 次 ,然后 步骤 Q5 使 我 们 转 去 执行 
Q7。 所 以 在 此 情况 下 头 一 个 阶段 的 贡献 是 A=1,B=0,C=N+l。 当 >1 时 ( 见 
习题 21) ,一 个 类 似 的 但 稍微 复杂 的 论证 说 明 ,一 般 地 , 头 一 阶段 对 于 总 运行 时 间 的 
贡献 是 

A=1B=iC=N+l 对 于 1 过 ssN (17) 
对 此 ,还 要 加 上 稍 后 阶段 的 贡献 ,这 些 阶段 分 别 对 具有 -1 和 N=-s 个 元 素 的 子 文 
件 进 行 排序 。 

如 果 假 定 原始 的 文件 是 随机 次 序 的 , 则 现在 已 有 可 能 写 下 定义 A,B,…，,S 的 
概率 分 布 的 生成 纯 数 公式 (见习 题 22)。 但 为 了 简单 起 见 , 这 里 仅仅 考虑 这 些 量 作 
为 六 的 函数 的 平均 值 ANw,BN,，…,Svw。 例 如 ,考虑 在 分 划 过 程 中 出 现 的 比较 平均 次 
数 CN。 当 NM 时 ,Cn=0。 否 则 由 于 任意 给 定 的 : 值 以 1/N 的 概率 出 现 , 我 们 
有 
1 


CN = N 


N 
Sj.(N 十 了 十 CC-1 十 Cn-;) 一 
S=1 


N+1+ SC,, 对 于 N > M (18) 


NAin 


对 于 其 它 的 量 , Aw, Bw ,DN ,En,Sw ,类 似 的 公式 成 立 ( 见 习题 23)。 
有 一 个 简单 的 方法 来 解 形 如 
z= 及 + 三 了) 对 于 n 之 m (19) 


Ok<n 


的 递 推 关 系 。 头 一 步 是 脱 去 求 和 式 符 号 
(+1l)z = (n+1)f, +2 >) Zp 


nzx, = nf, +2 > x, 

可 以 把 两 者 相 减 ,得 到 
(n+1)zr— nr = gr +27x,, 其 中 g, = (2+1l) 户 -7 
现在 递 推 式 有 了 简单 得 多 的 形式 
(2 十 1)Zz = (n+2)zr, + g,, 对 于 也 之 入 (20) 

任何 具有 一 般 形 式 

CnZn+l = On + gn (21) 
的 递 推 关系 可 以 约 化 为 一 个 和 式 ,只 要 以 “ 求 和 因子 ”a6a,…a_,/6,6,…b， 乘 以 两 
边 即 可 ;我 们 得 到 

Q0 ”4 -1 G0 dn-l 
Dob bobr'be” 
在 情况 (20) 中 , 求 和 因子 就 是 nn!1 /(n+2)! =1/(n+1)(n+2), 所 以 我 们 发 现 简 
单 的 关系 
.114 ， 








yx1 二 yrst+ cr， 其 中 y = (22) 
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之 7 +1 工 , (n 十 1) fri nf, 
_ ~、 一 A 一 > 
n+2 了 IT- (nt+1)(nt+2) 对 于 nn 之 m (23) 


是 (19) 的 一 个 推论 。 
例如 ,如 果 我 们 置 f, = i/n, 则 对 于 所 有 n 宇 m ,得 到 意外 的 结果 xz,/(n+1)= 
zs/(m +1)。 如 果 我 们 置 f= n+1, 则 对 于 所 有 nn 宕 m ,得 到 
zl(n+1)=2/(n +1)+2/n+ +2/((m+2)+ rl(m +1)= 
2(H;ii1 — Hyatt) + zm/(m +1) 
因此 通过 置 mx = M+1 和 对 于 7”" 委 M,zr, =0, 我 们 得 到 (18) 的 解 ;所 求 的 公式 是 
Cy =(N+l)(2HNi 一 2 + 1)S 
N+l 
w+)， 
习题 6.2.2- 8 证明, 当 M=1l 时 ,CN 的 标准 差 近似 于 V (21 -2x)/3N; 同 (24) 相 比 
这 是 相当 小 的 。 
以 类 似 的 方式 ,可 以 求 出 其 它 的 量 ( 见 习题 23); 当 N> M 时 我 们 有 
An = 2(N + 1)/(M +2)-1, 











2(N + 1)ln | 对 于 N>M (24) 


1 6 1 
By = SN+ {2H -2Hwar1l- 砚 5 六， 
Dy = (N+1)(1-2Hyi/(M + 2)), 
E, = (CN + 1)M(M - DI(M + 2), 


Svy= (N+1)/(2M +3)-1， 对 于 N>2M+l (25) 
上 面 的 讨论 说 明 ,通过 使 用 以 前 仅仅 应 用 于 较 简 单 情况 的 那些 技术 ,有 可 能 对 
相当 复杂 的 程序 的 平均 运行 时 间 进 行 精确 的 分 析 。 
公式 (24) 和 (25) 可 以 用 来 确定 在 一 台 具 体 的 计算 机 上 M 的 “最 好 "的 值 。 在 
MIX 的 情况 下 ,对 于 N >2M +1, 程 序 Q 平 均 要 求 (35/3)(N+1)Hvti+ 二 (N+1) 
f(M) 一 34.5 个 单位 的 时 间 , 其 中 
fF(M) = 8M ~ 7OHMs2 + 71 ~ 36 5 + + (26) 
我 们 要 选择 M 使 得 f( M ) 是 一 个 极 小 值 ,而 且 简 单 的 计算 机 计算 表明 M =9 是 最 
好 的 。 对 于 很 大 的 NN, 当 M =9 时 ,程序 Q 的 平均 运行 时 间 近 似 为 11.667(N +1) 
InN 一 1.74N -18.74 个 单位 。 
考虑 到 程序 Q 只 要 很 少 的 存储 空间 ,所 以 平均 说 来 , 它 是 十 分 快 的 。 它 的 速度 
主要 取决 于 以 下 事实 , 即 在 步骤 Q3 和 Q4 中 的 内 循环 是 极其 短 的 每 个 仅 含 3 
条 MIX 指令 ( 见 行 12 一 14 和 15 一 17)。 在 步骤 Q6 中 的 交换 次 数 , 仅 大 约 是 步 聚 Q3 
和 Q4 中 的 比较 数 的 1/6 ,因此 通过 在 内 循环 中 不 比较 i 和 j ,我们 已 节省 相当 的 时 
间 。 
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但 对 于 算法 Q, 最 坏 情 况 是 什么 呢 ? 是 否 有 菜 些 它 不 能 有 效 处 理 的 输入 ? 对 于 
这 个 问题 的 答案 是 十 分 令 人 难堪 的 :如 果 原 来 的 文件 已 经 是 有 序 的 , 且 Ki1< 天 2< 
…<KN, 则 每 个 分 划 “操作 "几乎 都 是 无 用 的 ,因为 它 仅 使 子 文 件 的 大 小 减少 一 个 元 
素 ! 所 以 这 种 情况 ( 它 应 是 所 有 情况 中 最 易于 排序 的 ) 使 得 快速 排序 根本 不 快 ; 它 的 
排序 时 间 同 N ,而 不 是 同 Nlogs N 成 比例 (见习 题 23)。 和 已 经 见 到 的 其 它 排序 方 
法 不 同 ,算法 Q 偏爱 一 个 无 次 序 的 文件 ! 

Hoare 在 他 开创 性 的 论文 中 , 曾 建议 用 两 种 方法 来 弥补 这 种 情况 ,其 原理 是 选择 
支配 分 划 的 测试 键 码 K 的 较 好 值 。 他 的 建议 之 一 是 在 步骤 Q2 的 最 后 部 分 中 选择 
/ 和 vr 之 间 的 一 个 随机 整数 g ;我 们 可 以 在 该 步 中 把 指令 “K 一 K," 改 成 为 

KK,, R<R, RR, RR (27) 
(最 后 的 赋值 *R,< 一 R”" 是 必要 的 ;否则 当 K 是 被 分 划 的 子 文件 的 最 小 键 码 时 步骤 
Q4 将 以 j=/!/ -1 停止 )。 按 照 等 式 (25$) ,这 样 的 随机 整数 平均 说 来 只 需要 被 计算 2 
(N+1)/(M+2) 一 1 次 ,所 以 附加 的 运行 时 间 不 是 很 多 的 ;因此 随机 选择 针对 最 坏 
情况 的 出 现 给 出 很 好 的 保护 。 甚 至 一 个 温和 地 选择 的 g 都 将 是 安全 的 。 习 题 58 证 
明 ,通过 真正 随机 的 9 ,比如 说 ,多 于 20N/lnN 次 比较 的 概率 将 肯定 地 小 于 10™?。 

Hoare 的 第 二 个 建议 是 考察 文件 的 小 样品 ,并 选择 这 个 样品 的 一 个 中 值 。 这 个 
方法 已 为 R.C. Singleton[CACM 12(1969) ,185 一 187] 所 采用 。 他 建议 令 K, 是 3 个 
值 

Ki, 下 LO+n/21， 天， (28) 


的 中 值 。Singleton 过 程 把 比较 的 次 数 从 2N in N 减少 到 大 约 学 NN In N( 风 习题 


29)。 在 这 种 情况 下 可 以 证 明 Bw 渐 近 于 CN/S ,而 不 是 CN/6 ,所 以 这 个 中 值 方法 稍 
微 增加 了 花费 在 传送 数据 中 的 时 间 数 量 ; 因 此 总 运行 时 间 大 约 减 少 8% (详细 的 分 
析 见 习题 56)。 最 坏 的 情况 仍然 是 N* 阶 的 ,但 是 这 样 缓慢 的 行为 很 少 出 现 。 

W.D.Frazer 和 A.C.Mckellar[JACM 17(1970) ,496 一 S07j] 已 经 建议 取 一 个 更 
大 得 多 的 由 2 -1 个 记录 组 成 的 样品 ,其 中 把 & 选择 成 使 2 和 Ni/ ln N。 这 个 样品 
可 以 用 通常 的 快速 排序 方法 进行 排序 ,然后 通过 对 这 个 文件 进行 & 次 扫描 把 样品 播 
人 到 剩 下 的 记录 当中 (把 它 划分 成 2* 个 子 文件 ,以 样品 的 元 素 为 界 )。 最 后 对 这 些 
子 文件 排序 。 当 六 在 一 个 实用 的 范围 内 时 ,这 样 一 个 “样品 排序 ”过程 所 需要 的 平 
均 比 较 次 数 , 大 体 等 同 于 在 Singleton 中 值 方法 中 的 次 数 , 但 是 当 N 一 co 时 , 它 减少 
到 渐 近 值 Nlg N。 

把 快速 排序 同 其 他 的 方案 组 合 在 一 起 ,可 得 到 在 最 坏 情况 下 O(NlogN) 排 序 时 
间 的 绝对 保证 ,连同 平均 说 来 快速 的 运行 时 间 。 例 如 D.R.Musser[Software Practice 
多 Exper. 27 (1997) ,983 一 993] 已 经 建议 对 快速 排序 栈 上 的 每 一 项 加 上 一 个 “分 划 
深度 "的 分 量 。 如 果 发 现任 何 子 文 件 已 经 被 划分 比如 说 多 于 2lgN 次 ,我们 就 可 放弃 
算法 Q ,并 且 转 到 算法 5.2.3H。 内 循环 时 间 保 持 不 变 , 所 以 平均 的 总 运行 时 间 几 乎 
保持 和 以 前 一 样 。 
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Robert Sedgewick 在 Acta Informatica 7(1977) ,327 一 336 上 ,以 及 在 CACM 21 
(1978)847 一 857 ,22 (1979) ,368 上 对 一 些 快 速 排 序 的 优化 变形 做 了 分 析 。 关 于 基 
于 15 年 以 上 的 经 验 , 已 被 调整 成 适合 于 UNIX 软件 库 的 一 个 快速 排序 的 版 本 ,请 参 
见 J.L.Bentley 和 M.D. Mcllroy 的 Sofiware Practice & Exper 23(1993),1249~ 
1265。 

基数 交换 ”现在 讨论 男 一 种 方法 , 它 非 常 不 同 于 以 前 所 看 到 的 任何 排序 方案 ;} 
它 利 用 键 码 的 二 进 制 表 示 , 所 以 仅仅 适用 于 二 进 制 计算 机 。 这 个 方案 不 是 比较 两 个 
键 码 ,而 是 检查 这 些 键 码 个 别 的 二 进位 ,看 看 它们 是 0 还 是 1。 在 其 他 方面 , 它 有 交 
换 排 序 的 特性 ,而且 事实 上 , 它 颇 类 似 于 快速 排序 。 由 于 它 依赖 于 基数 2 的 表示 , 帮 
我 们 称 它 “基数 交换 排序 ”。 这 个 算法 可 粗略 描述 如 下 : 

1 ) 按 键 码 的 最 高 二 进位 对 序列 排序 ,使 得 有 前 导 0 的 所 有 键 码 都 出 现在 有 前 导 
1 的 所 有 键 码 之 前 。 这 个 排序 首先 寻找 有 前 导 1 的 最 左边 的 键 码 有 KK; ,以 及 有 前 导 0 
的 最 右边 的 键 码 K; ;然后 交换 R 和 尺 ; 并 重复 这 个 过 程 ,直到 i > j。 

2) 设 Fo 是 具有 前 导 0 的 诸 元 素 ,F 是 其 余 的 元 素 。 对 Fo 应 用 基数 交换 排序 
方法 (现在 从 左边 第 二 位 开始 而 不 是 从 最 高 位 开始 ) ,直到 Fu 整个 地 被 排序 为 止 ; 然 
后 对 Fi 同样 这 样 做 。 

例如 , 表 3 示 出 了 对 于 我 们 的 16 个 随机 数 如 何 进行 基数 交换 排序 ,这 些 数 已 被 
转换 为 八进制 。 表 中 的 阶段 1 示 出 初始 的 输入 ,在 对 第 1 位 进行 交换 之 后 ,我 们 到 
达 阶 段 2。 阶 段 2 按 第 2 位 对 头 一 组 排序 ,而 阶段 3 按 第 3 位 进行 工作 (读者 可 用 心 
算 把 八 进 转换 成 10 位 二 进 制 数 ,例如 ,0232 代表 (0 010 011 010),)。 当 按 第 4 位 进 
行 排序 后 到 达 阶 段 5 时 ,发 现 剩 下 的 每 一 组 只 有 一 个 元 素 , 所 以 文件 的 这 部 分 已 不 
必 进 一 步 考 察 。“[0232 0252] " 指 的 是 下 一 步 要 按 左 起 第 4 位 对 子 文件 0232 0252 
进行 排序 。 对 本 例 来 说 , 当 按 第 4 位 进行 排序 时 ,没有 进展 ;需要 进 到 第 $ 位 ,才能 
把 这 些 项 区 分 开 来 。 

表 3 中 所 示 的 整个 排序 过 程 花费 22 个 阶段 , 稍 多 于 快速 排序 的 相应 数目 ( 表 
2)。 类 似 地 , 按 位 检查 的 数目 为 82 次 ,是 相当 高 的 ;但 将 看 到 ,假定 这 些 键 码 是 一 致 
分 布 的 , 则 对 于 很 大 的 N 来 说 , 按 位 检查 的 数目 实际 上 小 于 快速 排序 所 做 的 比较 数 
目 。 表 3 中 的 交换 总 数 是 17 次 , 它 是 完全 适度 的 。 注 意 ,尽管 被 排序 的 是 10 位 数 ， 
但 这 里 按 位 检查 决 没 有 超过 第 7 位 。 

如 同 在 快速 排序 中 那样 ,可 以 使 用 一 个 栈 来 记 住 正在 等 候 的 子 文件 的 “边界 行 
信息 ”。 一 种 方便 的 办 法 是 不 首先 去 对 最 小 的 子 文件 排序 ,而 是 简单 地 从 左 到 右 进 
行 排序 ,因为 在 这 种 情况 下 , 栈 的 大 小 决 不 能 超过 正 被 排序 的 键 码 的 位 数 。 在 下 列 
算法 中 , 栈 项 目 (x ,bb) 用 来 表示 将 被 按 第 5 位 进行 排序 的 一 个 子 文件 的 右边 界 ; 左 
边界 不 必 记 录 在 这 个 栈 中 ,由 于 这 一 过 程 的 自 左 到 右 的 本 性 , 它 是 隐 含 的 。 


算法 R (基数 交换 排序 ) 适当 地 重新 排列 记录 R1,…, RN; 在 排序 完成 之 后 ， 
它们 的 键 码 将 是 有 序 的 ,Ki 二 … 研 Kn。 假定 每 个 键 码 都 是 一 个 非 负 的 m 位 的 二 进 
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数 ,(ala2…a)2; 第 i 个 最 高 位 a;, 称 为 这 个 键 码 的 “位 i”。 需 要 一 个 至 多 能 存 下 


m 一 1 个 项 目的 辅助 栈 做 临时 存储 。 本 算法 实质 上 遵循 上 文中 所 描述 的 基数 交换 
分 划 过 程 ; 对 它 的 效率 可 以 有 知 干 改进 ,如 下 文 和 习题 中 所 摘 述 的 那样 。 


RI1. 
R2. 


R3. 


R4. 
Rs . 
R6 . 


R7 . 


R8. 


[初始 化 ] 置 栈 为 空 ,并 置 1<1,r< 一 No< 1l。 

[开始 新 阶段 ] (现在 希望 按 位 5 对 子 文件 R 二 … 志 R, 排序 ;由 于 这 个 算 
法 的 本 性 ,我 们 有 /三 xr) 如 果 1 = rr, 则 转 到 步骤 R10( 由 于 一 个 单字 文件 
已 被 排 好 序 ) 。 否 则 置 ;< ,7 < 一 ro。 

[检查 K, 中 的 1] 考察 开 ; 的 位 2。 如 果 它 是 1, 则 转 到 步骤 R6。 

[i 增值 ] ;增加 1。 如 果 i 三; , 则 返回 步骤 R3 ;否则 , 转 到 步骤 R8。 
[检查 K;; 1 中 的 0] 考察 Ki; 1 的 位 2。 如 果 它 为 0, 则 转 到 步骤 R7。 

[j 减 值 ] 7 减 1。 如 果 i 过;j, 则 转 到 步骤 RS ;否则 , 转 到 步骤 R8。 

[交换 Ri ,Ri:1] 交换 记录 Ri 一 Ri:t; 然 后 转 到 步骤 R4。 

[检查 特殊 情况 ] (这 时 已 经 完成 了 一 个 分 划 阶 段 ;i = ;+1, 键 码 K,,…， 
K; 的 位 上 是 0, 而 键 码 K;,…,K, 的 位 2 是 1) b 增加 1。 如 果 6b>>m, 其 
中 m 是 在 这 些 键 码 中 总 的 位 数 , 则 转 到 步骤 R10( 在 这 样 一 种 情况 下 , 子 
文件 R,… 民 , 已 被 排 好 序 。 如 果 在 文件 中 不 可 能 出 现 相等 的 键 码 , 则 不 必 
进行 这 个 检查 )。 否 则 ,如 果 j< 之 /或 j=7r, 则 返回 步骤 R2( 所 有 考察 的 位 
都 分 别 为 1 或 都 为 0)。 否 则 ,如 果 j=7, 则 j 增 加 1 并且 转 到 步骤 R2( 仅 
有 一 个 位 为 0)。 


R9.[ 压 人 栈 ] 在 栈 顶 插入 项 目 (r ,6b), 然 后 置 ”< 熏 7 并 转 到 步骤 R2。 
R10.[ 弹 出 栈 ] 如 果 栈 是 空 的 , 则 已 经 完成 了 排序 ;和 否则 置 /< 一 r +1, 删 取 栈 项 


的 项 目 (r ,6b ), 置 7<y ,5b 一 5 ,并 返回 步骤 R2。 | 


程序 R( 基 数 交 换 排 序 ) 下 列 MIX 代码 基本 上 使 用 和 和 程序 Q 同样 的 约定 。 我 
们 有 rIl 寺 /一 + ,rt12 尘 7 ,r13 三 1 ,rlI4 圭 j ,r15 夺 mm. - 0,r16 三 栈 的 大 小 ,但 对 于 某 些 (下 
边 措 出 的 ) 指 令 保持 rT]3 二 i -j 或 r1 4 三 j - : 是 方便 的 。 由 于 基数 交换 的 二 进 制 
属性 ,这 个 程序 使 用 操作 SRB( 二 进 制 右 移 AX),JAE(A 为 偶数 时 转移 ) 以 及 JAO(A 
为 奇数 时 转移 ) ,这 些 操作 已 在 4.5.2 小 节 中 定义 。 假 定 N 之 2。 


01 START ENT60 1 R1. 初始 化 。 置 栈 为 空 

02 ENT1 1—N 1 1<1 

03 ENT2 N 1 ro—N 

04 ENTS M—1 1 bl1 

05 JMP 1F 1 转 R2( 省 略 检 验 1 = r) 
06 9H INC6 1 S R9. 压 人 栈 。[Lrl4=71--j 
07 ST2 STACK ,6(A) S 

08 ST5 STACK ,6(B) S (7 ,6) 之 栈 
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09 ENN1 0 ,4 S rl1l<—/—; 

10 ENT2 一 1,3 S rj 

11 1H ENT3 0,1 A R2. 开始 新 阶段 [r13= i- j] 

12 ENT4 0 ,2 A i<—/l,j<—r [r1I3=7i-j] 

13 3H INC3 0,4 C- RR3. 检查 KK; 是否 为 1 

14 LDA INPUT , 3 C 

15 SRB 0 ,5 C rA 的 个 位 二 KK; 的 位 6 

16 JRE AF C- 如 果 它 为 0, 则 转 到 R4 

17 6H DEC4 1 ,3 C +X R6.7 减 入。j)<i) -1 

[rI4=;—i] 
18 J4N 8F C +X 如果 ;<i 则 转 到 R8 
[rTI4=7 一 7 

19 5H INC4 0 ,3 C” 有 .检查 K;,; 是 否 为 0 

20 LDA INPUT +1,4 C” 

21 SRB 0,5 C” rA 的 个 位 < 一 Ki: 的 位 

22 JAO 6B C” 如 果 它 为 1, 则 转 到 R6 

23 7H LDA INPCT+1,4 B RR7. 交换 R,, RR,,， 

24 LDX INPUT,3 B 

25 STX INPUT+1,4 B 

20 STA INPUT ,3 B 

27 4H DEC3 —1,4 C -X ” R4.7 培 信 。i<-i+1 
[r13=i—j] 

28 J3NP 3B C -X 如果 ij) 则 转 R3 
[rI3= :一 让 

29 INC3 0,4 A-X rl3<—1 

30 8H J52 OF A R8. 检 输 符 歼 情况 
[rI4= 未 知 ] 

31 DECS 1 4-G 如 果 4b5= m 则 转 到 R10, 否则 

p<—b—1 

32 ENT4 一 ,3 4 一 G rl4<—) 

33 DEC4 0 ,2 A-G rl4<j—r 

34 J42 1B 4-G 如 果 j;=7, 则 转 到 R2 

35 DEC4 0,1 A-G-R rl4<—jij-1 
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36 J4N 1B 4A-G-R 如 果 j<1, 则 转 到 R2 

37 J4NZ 9B A -GL 一 R 如 果 7 和 关 /, 则 转 到 R9 

38 INC1 1 K l/l/+l1 

39 2H J1NZ 1B K+S ”如 果 7 天 r, 则 转移 

40 oH ENT1 1 ,2 St+t1 ”R10. 弹出 校 

41 LD2 STRCK ,6(A) S+1 

42 DEC1 0 ,2 S+1 

43 LD5 STACK ,6(B) S+1l 栈 之 (Cr ,6) 

44 DEC6 1 S+l1 

45 J6NN 2B S+1 ”如 果 栈 非 空 , 则 转 到 R2 1 


这 个 基数 交换 程序 的 运行 时 间 依 赖 于 : 

A= 遇 到 的 /<r 的 阶段 数 ; 

B= 交换 数 ; 

C=C +C = 位 检查 的 数目 ; 

G = 在 步骤 R8 中 5>m 的 次 数 ; 

K = 在 步骤 R8 中 6 过 m ,j=1 的 次 数 ; 

了 = 在 步骤 R8 中 5 二 m,j</ 的 次 数 ; 

R= 在 步骤 R8 中 5 过 m ,j= 的 次 数 ; 

S = 元 素 压 入 栈 的 次 数 ，; 

X= 在 步骤 R6 中 7<i 的 次 数 。 (29) 

由 基 尔 替 夫 定律 ,S=A 一 G-KK-L--R; 所 以 总 运行 时 间 为 27A +8B+8C 
-23G 一 14K -17L 一 19R 一 XX+13 个 单位 。 如 习题 34 所 示 , 以 一 个 较 复杂 的 程序 
为 代价 ,位 检查 循环 可 以 进行 得 更 快 些 。 每 当 xr - / 充分 小 时 , 像 在 算法 Q 中 那样 ， 
也 可 通过 使 用 直接 插入 来 提高 基数 交换 的 速度 ;但 此 处 我 们 并 不 详细 介绍 这 些 精 化 
措施 。 

为 了 分 析 基 数 交 换 的 运行 时 间 ,可 以 使 用 两 种 类 型 的 输入 数据 : 

(i) 假 定 N =2” 并 且 待 排序 的 键 码 就 是 随机 顺序 下 的 整数 0,1,2，…2” 一 1 

(ii 假定 mx = co( 无 限 地 精确 ) 而 且 有 待 排序 的 键 码 是 在 [0..1) 中 独立 地 一 致 
分 布 的 实数 。 

情况 (i 认 的 分 析 相 对 来 讲 是 容易 的 ,所 以 已 留 作 读者 的 习题 (见习 题 33)。 情 痪 
(ii) 相 对 来 讲 是 困难 的 ,所 以 它 也 留 作 一 个 习题 (见习 题 38)。 下 面 为 对 于 这 些 分 析 
结果 的 粗略 近似 : 

量 情况 (i) 情况 (ii) 
人 N aN 
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B —NlgN 4 lg N 
C NlgN NlgN 
G 工 N 0 
2 
1 
K 0 > N 
1 
L 0 Fla-1)N 
1 
及 0 Fla DN 
1 | 
S 7 NN 7 NN 
x FN 工 (urDN (30) 
2 4 


这 里 c =1l/ln2s1.4427。 注 意 尽 管 情 况 (i 花 费 的 阶段 要 多 44% ,但 是 交换 .位 检查 
和 栈 芒 问 的 平均 次 数 , 对 于 两 种 情况 来 说 实质 上 是 相同 的 。 平 均 来 说 ,我 们 的 MIX 
程序 ,在 情况 (i) 下 对 N 个 项 目 排序 花费 了 近 14.4N in N 个 时 间 单 位 ,而 且 使 用 习 
题 34 的 建议 还 可 以 减少 到 大 约 11.5N ln Ni; 对 于 程序 Q, 对 应 的 数字 是 11.7N 
ln N ,使 用 Singleton 三 个 取 中 的 建议 , 它 可 以 减少 到 大 约 10.6N ln AN 。 

于 是 , 当 对 一 致 分 布 的 数据 排序 时 ,平均 说 来 ,基数 交换 排序 和 快速 排序 花费 大 约 
同样 长 的 时 间 。 在 某 些 机 器 上 , 它 实际 上 比 快 速 排序 还 稍微 更 快 些 。 习 题 53 指出 ,对 
于 非 一 致 分 布 的 数据 这 个 过 程 减 慢 到 什么 程度 。 重 要 的 是 要 注意 ,整个 分 析 是 以 所 有 
键 码 都 不 相同 这 个 假定 为 依据 的 ; 当 上 出 现 衣 等 的 键 码 肝 ,如 上 定义 的 基数 交换 就 不 是 
符 吊 有戏 的 。 因 为 在 6 变 成 >m 之 前 , 它 白白 浪费 一 些 阶段 来 分 开 相等 的 键 码 的 集 
合 。 弥 补 这 个 缺陷 的 一 个 似乎 有 理 的 方法 ,在 习题 40 的 答案 中 提出 。 

基数 交换 和 快速 排序 两 者 实质 上 都 是 以 分 划 的 思想 为 基础 的 。 诸 记录 被 交换 ， 
直到 这 文件 被 分 成 两 个 部 分 为 上 :一 个 左边 的 子 文件 ,其 中 所 有 的 键 码 都 过 K (对 蘑 
个 KK), 以 及 一 个 右边 的 子 文件 ,其 中 所 有 的 键 码 都 宇 K。 快 速 排序 把 这 个 文件 中 的 
一 个 实际 的 键 码 选 为 K ,而 基数 交换 则 实质 上 以 二 进 表示 为 基础 选择 一 个 人 为 的 键 
但 天。 从 历史 上 看 ,基数 交换 是 由 了 . Hildebrandt, H. Isbitz, H. Rising 以 及 J. 
SchwartzLJACM 6(1959),156 一 163] 发 现 的 ,大 约 比 快速 排序 早 一 年 。 其 它 的 分 划 
方案 也 是 可 能 的 ;例如 , 当 已 知 所 有 的 键 码 位 于 w 和 w 之 间 时 ,Johy McCarthy 建议 


置 Ka~3 (1 + wv)。Yihsiao Wang( 王 义 孝 ) 已 经 提议 把 诸如 (28) 的 3 个 键 码 值 的 均 


值 用 作 分 划 的 出 值 ;他 证 明了 对 一 致 分 布 的 随机 数据 排序 ,所 需要 的 比较 次 数 近似 
为 1.082N lg N。 
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M.H.van Emden 提出 了 另外 一 种 分 划 策 略 [CACM 13(1970) ,563 一 567] :他 不 
是 预先 选择 KK ,而 是 随 着 分 划 的 进行 , 记 住 K' = max( 开 天) 和 天 = min(K,， 
K,),“ 学 会 "如何 选 一 个 好 的 K。 我 们 可 以 令 i 增值 ,直到 遇 到 一 个 大 于 天 的 
et 然后 令 j 减 值 ,直到 遇 到 一 个 小 于 K“ 的 键 码 为 止 ,然后 交换 和 /或 调整 K 
。 对 于 这 个 “区 间 交 换 排 序 " 方 法 的 经 验 测 试 指 出 , 它 运 行 得 比 快速 排序 稍微 
最 攻 也 的 运行 时 间 看 起 来 是 这 样 难以 分 析 ,以 致 于 绝对 找 不 到 一 个 适当 的 理论 解 
释 ,特别 是 因为 在 分 划 之 后 诸 文件 已 不 再 处 于 随机 次 序 了 。 
把 基数 交换 推广 到 大 于 2 的 基数 问题 ,在 5.2.5 小 节 中 讨论 。 


* 渐 近 方法 ”交换 排序 算法 的 分 析 导 致 了 某 些 特别 有 教 益 的 数学 问题 ,这 些 问 
题 使 我 们 更 多 地 学 会 如 何 研究 诸 函 数 的 渐 近 行为 。 例 如 ,在 对 冒 泡 排 序 的 分 析 中 
(等 式 9) 遇 到 过 函数 


W, = > Sm (31) 

它 的 渐 近 值 是 什么 呢 ? 

我 们 可 以 照搬 对 对 合 数 等 式 5.1.4-(41) 的 研究 方式 ;读者 将 发 现在 进一步 阅读 
之 前 ,复习 一 下 $.1.4 小 节 末 尾 的 讨论 是 有 帮助 的 。 

检查 (31) 可 知 ,s = nn 的 贡献 大 于 ;= n 一 1, 等 等 ;这 提示 以 n --， 代替。 事实 
上 ,立即 发 现 , 使 用 替换 1=n 一 ;+1,m=n+1 把 (31) 变 为 
—W,,-1 = 一 > ， (m 一 OO 之 六 (32 ) 
是 最 方便 的 。 内 民 的 求 和 可 由 欧 拉 束 和 公式 得 到 吕 知 的 攻 近 久 娄 ， 即 


I_N ,- - 
> = 个 -3(N 1 -611) + -1)(N'?— 6,)+. = 


Or<N 


Fo) 0) + ON) (33) 
(见习 题 1.2.11.2-4) ,因此 问题 归结 为 研究 形 如 
Rl mm OW, =- 1 (34) 


人 
以 忽略 的 O(exp( 一 好 )) ,因此 可 以 置 1= O(m 吕 1*') ,而且 用 斯 特 林 近 似 代替 这 些 
阶乘 


(m1) (mo— 12) f < [5 | L” 14 1 46. | 
= 一 - 一 | 二 一 十 二 一 汪 十 一 一 
m | 一 n P12m 2m 3m 4m Sm’ + Om ) 


我 们 因此 对 








r,(m)= > ee k>-1 (35) 


lt:<ni 


的 渐 近 值 感 兴趣 。 这 个 和 也 可 以 扩展 到 整个 1 委 上 < co 的 范围 而 不 会 改变 它 的 渐 近 
” 712 了 ， 
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值 ,因为 对 于 1 > m'**' 的 那些 值 是 可 以 忽略 的 。 

设 gz =zte ”和 f(z)= g(x/V2m), 和 4 上 之 0 时 , 欧 拉 求 和 公式 告诉 我 
们 
A= hilar +t | fm) fH 0)) + R, 


_ 1 p cc 
R=) Bd) = (of 站 soonlay)- 
Olm ?2) G39 

因此 每 当 过 0 时 ,通过 使 用 实质 上 和 以 前 使 用 过 的 同样 的 思想 ,就 能 得 到 一 
mA 7 ) 的 渐 近 级 数 。 但 当 & 上 = 一 1 时 ,这 个 方法 就 失灵 了 ,因为 7 0) 无 定义 ,我们 
也 不 能 仅仅 从 1 到 mm 求 和 ,因为 当下 限 为 1 时 ,余数 不 给 出 越 来 越 小 的 mm 的 乘 方 
(这 是 问题 的 症结 ,因而 读者 在 进一步 阅读 之 前 应 确保 自己 了 解 这 个 问 题 )。 

为 了 摆脱 这 个 困境 ,可 以 定义 g 1(z)=(e 7” Dryf ii(z)=g (rvV2m); 
然后 可 以 以 简单 的 方式 从 Zi<,< ui (ti 得 到 f_1(0)=0 和 r_-1(m)。 等 式 (36) 现 
在 对 有 = -1 成 立 ,而 且 剩 下 的 积分 是 “熟知 的 ", 由 习题 43， 


x 2m m/l2 一 _ 
二 |” f-_-i(x)dz =2|” el. 二 | = -dy = 
0 0 之 0 


VV 2m 
1 e > -1 n112 e > m 
| y dy+| yd -ln2= 

-~-Y-—-lInm+ln2+O(e 2 ) ， 
现在 已 经 有 了 足够 的 事实 和 公式 来 作出 答案 ,如 习题 44 所 示 


W, = mln m + (y+ In2)m 一 











2 
$V 2xm + 3 1 O(7 -2)， m 一 7 十] (37 ) 


这 就 完成 了 对 于 冒 泡 排序 的 分 析 。 
对 于 基数 交换 排序 的 分 析 ,需要 知道 当 co 时 有 限 和 
721 1 T 
U, = 的 1)” 5 1 (38 ) 
的 渐 近 值 。 这 个 问题 要 比 至 今 遇 到 的 任何 其 它 渐 近 问题 更 难 些 ; 震级 数 展开 , 欧 拉 
求 和 公式 等 的 初等 方法 ,证 明 是 不 适用 的 。 N.G.de Bruijn 提出 了 下 列 推 导 。 


为 了 摆脱 在 (38) 中 大 因子 [7 ] -1)* 的 抵消 作用 ,我 们 把 和 重新 写成 一 个 无 穷 
级 数 


0 - 


类 之 2 J 之 1 
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> (22(1 一 2 一 2 +n) (39) 


jj 之! 


如 果 置 x = n/2’, 求 和 的 数 是 
2i(1 — 2°77)” -2 +n= 2 人 1 -z) -| 


万 
当 xX 三 n‘ 时 ,有 
(1 -至 ] = exp(n In (1 过)]= exp(~ x + x70(n7!)) (40) 
而 这 提示 以 
T, = > (0272e 7 _ 274+n) (41) 
逼近 (39) 。 为 了 论证 这 个 逼近 ,有 U, - 工 = X, + Y, ,其 中 
X, = 2) (2i(1 -2 ~ 2ie ”2 ) = [ 即 > n' 的 诸 项 | 
>) O(ne-”? ) = [因为 0<1-2-i<e?"] 
O(nlogne™”) [因为 有 O(logn ) 项 ] 
以 及 
Y, = 2 (2i(1 — 271)" -2ie ”2 ) = [z 二 n' 的 诸 项 ] 
—n/2 A 
名 一 Jo0D j [由 (40) 


以 下 的 讨论 将 揭示 ,后 一 个 和 是 O(1); 因 此 U; -T= O(1)( 见 习题 47)。 
至 今 还 未 曾 应 用 实际 上 不 同 于 以 前 使 用 过 的 任何 技术 ;但 是 T, 的 研究 需要 一 
种 以 复 变 理论 的 简单 原理 为 基础 的 新 思想 。 如 果 x 是 任何 正 数 , 则 有 


1/2+i% co . 
ez = 二 | T(z)x “dz = 二 | r( + i je dds (42) 
TL 1/2 -ioo 2x -00 2 


为 了 证 明 这 个 恒等式 ,考虑 图 20(a) 中 所 示 的 积分 路 径 ,其 中 N,N 和 M 是 很 大 的 。 
沿 着 这 条 回路 的 积分 值 是 内 部 残 数 的 和 , 即 


De ime +t iT) = DH 


Ok<M Ok<M k | 
1/2 
在 顶 线 上 的 积分 是 O(| IT(+ + iN)|z-'dt) ,而且 我 们 有 熟知 的 界限 


T(t: +iN)= O(|zi+iN|I err) 当 N 一 %% 时 
[关于 供 玛 哨 数 的 性 质 可 见 , 例 如 Erdély: Magnus, Oberhettinger 以 及 Tricomi 的 ， 
(Higher Transcendental Functions 1)(NewYork:McGraw - Hill,1953), 第 1 章 ]。 因 
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此 顶 线 积分 是 完全 可 以 忽略 的 。O{ es2| (NJze)'dt) 。 底 线 积分 也 有 一 种 类 
似 的 无 关 痛 痒 的 行为 。 对 于 沿 着 左边 线 的 积分 ,利用 下 列 事实 
T+ - M]=T( 这 + M+ 六 ti (-1+ 广 + 认 ]= 


r (3 + i jo( um - 11 


因此 左边 的 积分 是 O(zx21CM D1) |T( 冯 + 让 ]|dzs 因 而 当 M,NN 一 


co 时 ,仅仅 右边 的 积分 残存 ,而 这 就 证 明了 (42) 事实 上 ,如 果 以 任何 正 数 代替 了 ,由 
(42) 成 立 。 





(a) (b) 
图 20 ”对 于 合 玛 沼 数 恒等式 的 积分 回路 
同样 的 论证 可 用 来 推导 涉及 伽 玛 萎 数 的 许多 其 它 有 用 的 关系 。 我 们 可 以 以 > 


的 其 它 函 数 代替 ;或 者 可 以 用 其 它 的 量 代替 常数 广 。 例 如 


1 3 -= -x 
而 | ，_r(z)z dz 一 ee 一 荆 十 并 (43 ) 
这 是 在 T, 公式 (41) 中 关键 性 的 量 : 
四 1 一 3/2+ico 六 -La 
了 了， = "2 | T(z) (nl2 ) dz (44) 


这 个 和 可 以 放置 到 积分 里 边 ,因为 收敛 性 是 绝对 好 的 特性 。 我 们 有 
DN (naj2)” = ne D2 = no/(2* -1),B RCw) > 0N 


因为 |2w| =23(w)>1, 因 此 
四 一 3/2+ico T(z)n!* 
一 区 | 2 = 一 1 
剩 下 的 是 计算 后 边 的 积分 。 
这 次 沿 着 远 向 右边 扩展 的 一 条 路 径 进 行 积分 ,如 图 20(b) 所 示 。 如 果 2 个 关 1， 


dz (45) 
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则 项 线 积分 是 O (ne "| 1M + iN dz] .而 当 N 和 N' 比 M 大 得 多 时 ,底线 


积分 同样 是 可 以 忽略 的 . 右 线 积分 是 of [FROM iD | dt | 。 固 定 M 并 


命 N,N 一 co ,证 明 -T/ 是 D(z YY) 加 上 在 -3/2< 如 (>z)<M 范围 内 的 残 数 
之 和 。T(z) 在 z=-1 和 z=0 处 有 单 极 点 ,而 n “没有 极点 ,而 且 当 zx= 一 1+ 
2xik/ In 2 时 1/(2 1! ?一 1) 有 单 极点 。 
在 z= 一 1 处 的 双重 极点 是 最 难处 理 的 。 可 以 使 用 熟知 的 关系 

T(z+1) = exp(- yz + £(2)z’/2 — £(3)z/3 + CE(4)z/4 一 …) 
其 中 5(s)=1 +2- +3- 二 … 二 及 , 来 导出 当 w= z+1 很 小 时 的 下 列 展开 式 : 
Dt = wt -1) + O(w) 
nl *=]-wlnn+O(w’) 


1/(2 -1)=-w!/ln2- + O(w) 


LT'(z) = 


在 z= -1 处 的 残 数 是 这 3 个 公式 的 乘积 中 w! 的 系数 , 即 闻 (In n+y-1)/In 2。 
加 上 其 它 残 数 即 得 公式 


如 -nnz+ry-l lgn)+2 + on™) (46) 
n ln 2 2 n 
其 中 ,对 任意 大 的 M ,5(n) 是 颇 奇 怪 的 孙 数 
6(n) = > R(T- 1 — 2xik/ln 2)exp(2rnik lg 1)) (47) 


注意 ,86(n)= 6(2n)。65(n) 的 平均 值 为 0, 因为 每 项 的 平均 值 为 0( 鉴 于 4.2.4 小 节 
中 关于 浮 点 数 的 结果 ,我 们 可 以 假定 (lgn) mod 1 是 一 致 分 布 的 )。 而 且 由 于 
IT( 一 1+iz)|=|z/(z(1+ 如 )sinh xz)122 ,不 难 证 明 
[5(n)|< 0.000000173 (48) 
于 是 对 于 实际 应 用 ,可 以 放心 地 忽略 5(n)。 然 而 在 理论 上 ,UU, 的 渐 近 展开 不 能 没 
有 它 ;这 就 是 为 什么 U, 是 比较 难 分 析 的 函数 。 
由 (41) 中 也 的 定义 ,立即 可 以 看 出 


Tan 了 ， e 


= 一 1 一 二 二 (49) 
277 n n n 


因此 (46) 中 的 误差 项 O(n “”) 是 必 不 可 少 的 ; 它 不 能 以 0 代替。 然而 ,习题 54 介绍 


了 为 一 个 分 析 方 法 , 它 通 过 推导 出 一 个 稍微 奇特 的 收敛 级 数 而 避免 这 样 的 误差 项 。 
总 之 ,我 们 已 经 推导 出 困难 的 和 (38) 的 特性 : 


六 + Cn) + O() (50) 


我 们 用 来 得 到 这 个 结果 的 伽 玛 函数 是 Mellin 转换 的 一 般 技术 的 一 个 特殊 情况 。 
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Mellin 转换 技术 在 研究 面向 基数 的 递 推 关系 中 极为 有 用 。 在 习题 51 一 53 和 6.3 节 
中 可 以 找到 这 个 方法 的 其 它 例子 。P. Flajolet, 义 . Gourdon 和 P. Dumas 在 Theoretical 
Computer Science 144(1995),3 一 58 中 ,给 出 了 对 于 Mellin 转换 及 其 在 算法 分 析 中 
的 应 用 的 一 个 精彩 介绍 。 


习 十 


1.[M201 设 a1…a, 是 |1,…,n1 的 一 个 排列 ,并 设 i 和 j 是 使 得 i<j; 和 a,>a 的 下 标 。 令 
a1…a; 是 由 al…a, 通过 交换 a, 和 a 得 到 的 排列 。 问 a1…a, 能 有 比 a1…a, 更 多 的 反 序 吗 ? 
>2.[LM25] (a) 对 排列 3 7 6 9 8 1 4 5 2 进行 排序 的 极 小 交换 次 数 是 多 少 ? (b) 一 般 地 说 ,给 
定 11,…,n| 的 任何 排列 x = al…a, , 设 xch(7) 是 把 x 排序 成 为 递增 次 序 的 极 小 交换 次 数 。 试 借 
助 于 7 的 “ 较 简 单 的 "特征 来 表达 xch(Cr)( 有 关 测 量 一 个 排列 的 无 序 的 另外 一 个 方法 ,参见 习题 
5.1.4 -41)。 
3.[10] 冒 泡 排序 算法 B 是 一 个 稳定 的 排序 算法 吗 ? 
4.[4723] 如 果 在 步骤 B4 中 上 =1, 则 实际 上 可 以 立即 终止 算法 B, 因 为 随后 的 步骤 B2 已 没 
有 什么 有 用 的 事 要 做 。 当 对 一 个 随机 排列 排序 时 ,在 步骤 B4 中 将 出 现 t=1 的 概率 是 多 少 ? 
5.[M25] 设 616,…b, 是 排列 a1a;,… ,a, 的 反 序 表 。 试 证 ,对 于 0 委 ” 迄 max(6 ,6 ) ,在 
冒 泡 排序 的 > 次 扫描 之 后 ,BOUND 的 值 是 max|b,+i|b, 宇 r] ->。 
6.[M22] 设 a1a,…a, 是 11…n} 的 一 个 排列 ,并 设 a1…a’ 是 它 的 道 。 试 证 ,对 ai…a, 进行 
冒 泡 排序 的 扫描 次 数 是 1+ max(ai 一 1,a; 一 2,…,a’ 一族 )。 
7.[M28]」 计 算 冒 泡 排 序 的 扫描 次 数 的 标准 差 , 并 用 n 和 消 数 Pln) 来 表达 它 [ 参 见 等 式 (6) 
和 (7)]。 
8.[M24]」 推导 等 式 (8)。 
9.[M48 ] 试 分 析 在 鸡 尾 混 合 排 序 算法 中 的 扫描 次 数 和 比较 次 数 。 注 :部 分 相关 信息 可 参见 
习题 5.4.8-9。 
10.[LM26] 设 a1as…a, 是 11,2,， 对 的 一 个 2 有 序 排 列 。(a) 对 应 的 格 磁 盘 通路 第 a, 步 的 
端点 坐标 是 什么 (参见 图 11)? (b) 证 明 al :ay ,ai:ai,… 的 比较 /交换 ,对 应 于 按 对 角 线 折 杰 这 条 
通路 ,如 图 18(b) 所 示 。(c) 证 明 当 &=2z -1 时 ,az:azryad:ad+d… 的 比较 /交换 ,对 应 于 按 对 
角 线 之 下 m 个 单位 处 的 一 条 直线 折合 形成 的 通路 ,如 图 18(c)、(d) 和 (e) 所 示 。 
P11.[LM25] :1,2,…,16} 的 什么 排列 使 由 Batcher 算法 所 完成 的 交换 次 数 取 极 大 值 ? 
12.[24] 假定 MIX 是 一 台 具 有 操作 AND.、SRB 的 二 进 制 计算 机 , 写 出 算法 M 的 一 个 MIX 程 
序 。 为 把 表 1 中 的 16 个 记录 排序 ,你 的 程序 花费 多 少时 间 ? 
13.[10] Batcher 方法 是 一 个 稳定 的 排序 算法 吗 ? 
14.[LM211] 设 c(N) 是 通过 Batcher 方法 对 N 个 元 素 排 序 所 进行 的 键 码 比较 次 数 ;这 是 步骤 
M4 被 执行 的 次 数 。(a) 证 明 对 于 1 宇 1, 有 c(2)=2c(2‘ 1)+ (1 一 1)2: “+1。(b) 试 求 作为 1 的 
一 个 函数 的 c(2 和 的 简单 表达 式 。 提 示 : 考 虑 序列 z, = c(24)124。 
15.[M38」 本 题 的 任务 是 分 析 习 题 4 的 函数 ce(NN), 并 求 出 当 N=2+2%2+…+2%,el>e， 
>…>e 过 0 时 关于 c(N) 的 一 个 公式 。(a) 设 ae(N)=c(N+1)-c(N)。 证 明 a(272)=a(7) 
+Llg (2n)j, 以 及 a(2n+1)=a(n)+1; 因 此 
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el 十 上 
a(N) = ) -7r(el--1)+(er+tez+ + e,) 


(b) 设 zn)=a(n)--a(lln/21), 于 是 a(n)=x(n)+x(n/21+x(n/4])+…。 设 y(n)= (1) 
+ Xx(2)+ + x(n); 且 设 z(2n)=y(2n)- a(n),z(2n+1)= y(2n+ 1)。 证 明 cc(N+1)= 
z(N)+2z(LN/21) + 4z(LN/41) +…。(c) 证 明 y(N)= N+ (LN/21+1)(e1 -1)-2%4+2。(d) 
现在 使 > 保持 固定 ,综合 以 上 所 得 ,并 借助 指数 e 求 出 关于 c (NN) 的 一 个 公式 。 

16.[AHM42] 假定 N 是 2 的 次 宕 , 求 出 当 应 用 Batcher 方法 于 N 个 不 同 元 素 的 随机 排列 时 ， 
所 需 的 平均 交换 次 数 的 渐 近 值 。 

P17.[20] K, 和 Kw;1 的 值 就 是 在 (13) 中 假设 的 值 ,在 算法 Q 中 何 处 用 了 这 一 事实 ? 

P18.[20] 说 明 当 所 有 的 输入 键 码 都 相等 时 ,算法 Q 中 的 计算 如 何 进行 。 如 果 步 又 Q3 和 Q4 
中 的 “<" 号 改 成 “过” ,将 发 生 什 么 情况 ? 

19.[15] 如 果 使 用 一 个 队列 (先进 先 出 ) ,而 不 是 使 用 栈 ( 后 进 先 出 ) , 问 算法 Q 是 否 仍 将 正确 
地 工作 ? 

20.[M20] 作为 M 和 NN 的 函数 ,在 算法 Q 中 最 多 能 有 多 少 元 素 同 时 在 栈 中 ? 

21.[20] 说 明 当 诸 键 码 不 同时 ,为 什么 算法 Q 的 最 初 的 分 划 阶 段 要 花费 (17) 中 所 确定 的 比 
较 、 交 换 等 次 数 。 

22.LM25] 令 pw 是 当 应 用 算法 Q 于 11,2,…,N} 的 一 个 随机 排列 时 ,(16) 中 的 量 A 将 等 于 
& 的 概率 ;并 令 An(z)= ,pkNx* 是 对 应 的 生成 函数 。 试 证 对 于 NM,An(z)=1, 而 对 于 NN> 
M,Av(z)=z(D<,<NnA_1(z)An_.(z))/N。 试 求 确定 其 它 概率 分 布 BN(z)、Cn(z)、DN(z)、 
EN(z)、SN(z) 的 类 似 递 推 基 系 。 

23.[M23] 令 An、Bn、Dn、En、Sw 是 当 对 11,2,…,Ni 的 一 个 随机 排列 排序 时 ,(16) 中 对 应 
量 的 平均 值 。 试 求 类 似 于 (18) 的 这 些 量 的 递 推 关 系 ,并 且 解 这 些 递 推 关 系 以 得 到 (23)。 

24.[M21] 算法 Q 明显 地 做 了 比 它 所 需要 的 还 要 多 一 点 的 比较 ,因为 我 们 在 步骤 Q3 中 能 有 
i = j) ,而 且 甚至 在 Q4 中 有 ;ii > ij。 如果 当 i 宇 j 时 ,我 们 避免 进行 所 有 的 比较 , 则 平均 说 来 ,所 执行 
的 比较 次 数 cx 是 多 少 ? 

25.[M20] 当 输 入 的 键 码 依次 是 数 1,2,…,N 时 , 问 在 程序 Q 的 计时 中 量 A、B、C、D、E 和 和 
S 的 精确 值 是 什么 (假定 N>> M)? 

P26.[M24] 构造 一 个 输入 文件 , 它 使 程序 Q 甚至 比 它 在 习题 25 中 进行 得 还 要 慢 ( 试 找 出 一 
种 真正 坏 的 情况 )。 

27.[M28](R.Sedgewick) 考虑 算法 Q 的 最 好 情况 :寻找 11,2,…,231 的 一 个 排列 , 当 N =23 
和 M =3 时 ,对 它 排序 所 花 时 间 最 少 。 

28.[M26] 求 类 似 于 (20) 的 递 推 关系 , 它 被 Sngleton 修改 过 的 算法 Q 的 平均 比较 次 数 所 满 
足 ( 选 择 * 作为 1K ,Kiiw+w2j, Kn 的 中 值 ,而 不 是 ;= Ki)。 

29.1HM40] 继续 习题 28, 求 Singleton 的 “三 值 取 中 ”方法 中 比较 次 数 的 渐 近 值 。 

30.[25] (P.Shackleton) 当 对 多 个 字 的 键 码 排序 时 ,许多 排序 方法 随 着 文件 接近 它 的 最 后 次 
序 而 逐渐 慢 下 来 ,因为 相等 的 和 接近 相等 的 键 码 需要 检查 几 个 字 才 能 确定 适当 的 字典 编辑 次 序 
(见习 题 $S-5) 。 通 常 实践 中 出 现 的 文件 都 包含 接近 相等 的 键 码 ,所 以 这 个 现象 对 排序 时 间 可 能 有 
重大 的 影响 。 

试 说 明 怎 样 推广 算法 Q 以 避免 这 个 困难 ;在 一 个 已 知 对 于 所 有 和 键 码 其 前 导 的 & 个 字 都 为 党 
数值 的 子 文件 中 , 仅 需 检查 键 码 的 第 (k 二 1) 个 字 。 

P31.[20] (C. A.R.Hoare) 假设 不 是 对 整个 文件 排序 ,而 只 要 确定 一 个 给 定 的 n 个 元 素 集合 
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的 第 m 个 最 小 者 。 证 明快 速 排序 可 修改 成 实现 这 一 目的 ,以 避免 为 进行 一 次 完全 排序 所 需要 的 
许多 计算 。 

32.LM40」 给 出 利用 习题 31 的 “快速 查找 ”方法 寻找 n 个 元 素 的 第 mx 个 最 小 者 ,所 需要 进行 
的 平均 键 码 比较 次 数 C;,, 的 简单 的 “封闭 形式 ”的 表达 式 ( 为 简便 起 见 , 令 M = 1; 即 ,不 假定 使 用 
有 关 短 的 子 文件 的 一 个 特殊 技术 )。 通 过 Hoare 的 方法 求 2m -1 个 元 素 的 中 间 值 ,所 需要 的 平均 
比较 次 数 C4,,,_ 1) 的 渐 近 特性 如 何 ? 

33.[15] 试 设计 一 个 算法 , 它 重新 排列 一 个 给 定 表 中 的 所 有 数 , 使 得 所 有 负数 都 在 所 有 非 负 

数 之 前 (这 些 项 不 必 完 全 排序 , 仅 需 分 开 负 的 和 非 负 的 )。 你 的 算法 应 使 用 最 小 可 能 的 交换 次 数 。 

34.[20] 如 何 加 快 基数 交换 (在 步骤 R3 到 R6 中 ) 的 位 检查 循环 ? 

35.LM23] 分 析 频 率 A,B,C,G,K,L,R,S 和 XX 的 值 ,它们 是 在 利用 “情况 (i) 的 输入 ”的 基 
数 交 换 排 序 中 出 现 的 。 

36.LM27]」 给 定数 的 序列 (4a,)= a0,al,as,… ,通过 规则 


a = | | 1) as 
k 


大 


定义 它 的 二 项 式 转换 人 人)=aodlya，…。 (a) 证 明 (4,) = (a,)。 (b) 求 序列 (1);《n) 的 二 项 式 转 
换 ;对 于 固定 的 m ,求人 [对 ) 的 二 项 式 转换 ;对 于 固定 的 a , 求 (a”) 的 二 项 式 转换 ;对 于 固定 的 a 
和 (( jz ) 的 二 项 式 转换 。 (ce) 假设 序列 (zx, ) 满 足 关系 


n 
= ja 对 于 7 之 2; X0= XI= ao0= ai}=0 
k 


《之 2 


证 明 





_ " 2 0 A jk a 
| 2 1) Fri nt 中 2 
37.[LM28」 在 习题 36 的 意义 下 ,确定 所 有 使 得 (4,) = (a, ) 的 序列 (a,)。 
38.[4430] 当 基 数 交换 应 用 于 "情况 (ii) 的 输入 "时 , 求 (29) 中 诸 量 的 平均 值 AN、Bw、Cw、Gw、 
Kn、RN、Ln 和 XN。 试 借助 N 和 量 


n 天 n -1] kp 
UD, = >| | 二 Vv, = -| | = (Us U, 1) 
£2 \k 和 4 之 2 人民 





表达 你 的 答案 [提示 :见习 题 36]。 
39.[20] (30) 中 所 示 的 结果 指出 , 当 应 用 基数 交换 排序 于 随机 输入 时 ,大 约 花费 1.44N 个 分 
划 阶 段 。 证 明快 速 排序 决 不 需要 多 于 N 个 阶段 ;并 说 明 为 什么 基数 交换 往往 需要 这 么 多 。 
40.[21] 说 明 怎 样 修改 算法 R, 使 得 它 对 包含 许多 相等 键 码 的 文件 排序 时 ,也 以 相当 不 错 的 
效率 进行 工作 。 
41.[30] 试 设计 对 记录 R,…R, 进行 交换 的 一 个 好 方法 ,使 得 它们 被 分 划 成 三 个 抉 区 , 且 ; (i) 
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对 于 1k<i,K 夺 KK;(ij) 对 于 i 人 kj ,Kk 二 KK;(iii) 对 于 jy<kr,Ki>>K。 图 解 之 ,最 后 的 安 
排 应 是 


42.[HM32 】 对 于 任何 实数 c >0, 试 证 明 当 对 随机 数据 进行 排序 时 ,算法 Q 将 做 多 于 (c +1) 
(N+1)Hn 次 比较 的 概率 小 于 ee “( 当 < 比如 说 是 N' 时 ,这 个 上 限 是 特别 有 趣 的 )。 

43.[HNM211] 证 明 | ye -1)dy+ | edy = y [提示 :考虑 lim_ .，，y-!]。 

44.[AHM24 如 正文 中 所 建议 的 那样 ,推导 (37)。 

45.[HM20] 说 明 当 x > 0 时 ,为 什么 (43) 为 真 。 

46.[A0420] 给 定 正 整数 ;5,0 < a < ，, 问 (1/2xi)| T(z)n “dz/(2* 一 1) 的 值 是 多 少 ? 


47.[HM21] 证 明 2) (zj/21)e "2 是 x 的 一 个 受 限 函 数 。 

48.LHM24 1 利用 类 似 于 正文 中 对 U, 的 研究 所 使 用 方法 , 试 求 在 习题 38 中 定义 的 量 w, 的 
渐 近 值 , 求 其 诸 项 直到 O(1) 为 止 。 

49.[HM24] 展开 U; 的 渐 近 公式 (47) 直到 O(n 1)。 

50.[HM24] 当 mx 为 任何 大 于 1 的 固定 数 时 , 求 函数 


Un = >， ew 
k 


之 2 


1 
1 





~ 1 


m*- 


的 渐 近 值 ( 当 m 为 大 于 2 的 一 个 整数 时 ,这 个 量 出 现 于 推广 基数 交换 的 研究 中 ,以 及 6.3 节 的 检 
索 结 构 内 存 的 查找 算法 中 )。 

5S1.[Z0I28] 证 明 解 决 泗 近 问题 的 伽 玛 函数 可 以 用 来 代替 欧 拉 求 和 公式 ,以 推导 (35) 中 的 量 
re(m ) 的 浙 近 展开 (这 给 了 对 所 有 研究 x,(m) 的 一 个 统一 的 方法 ,而 无 须 依赖 于 诸如 正文 中 人 


绍 的 g_,(z)=(e-z -1)/z 的 技巧 )。 
52.[BHM35] (N.G.de Bruijn) 和 数 


d(z) 








的 渐 近 特性 是 什么 ?其 中 d(1) 是 + 的 因子 的 个 数 (于 是 ,d(1)=1,d(2)=d(3) =2,d(4) =3,d(5) 
= 2 ,等 等 。 这 个 问题 的 出 现 同 分 析 一 个 树 人 遍历 算法 有 关 , 见 习题 2.3.1-11)。 试 求 S， ”的 


值 ,到 O(n !) 的 项 为 止 。 
53.LRM42]」 当 输入 数据 由 [0. .1) 中 的 无 穷 精度 二 进 数 组 成 , 且 它 们 的 每 位 进位 都 独立 地 以 
概率 p 等 于 1 时 , 试 分 析 基 数 交 换 所 执行 的 位 检查 和 交换 的 平均 次 数 ( 正 文中 仅仅 讨论 了 p= 


的 情况 ;我们 所 使 用 的 方法 可 以 推广 到 任意 的 p)。 特 别 是 ,考虑 p= 1/#$ = .61803… 的 情况 。 
54.[HM24] (S.O.Rice) 证 明 U, 可 被 写成 
yn dz 1 
U, = (-1) 四 —1)…(z—-n)2:-1-1 
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其 中 C 是 包围 点 2,3,…,n 的 小 的 封闭 曲线 。 试 把 C 变 成 以 原点 为 中 心 的 任意 大 的 圆 ,推导 出 
收敛 级 数 
(H,-_1 ~ 1)n n 


2 An . 
UU, = 7 12+ 32 RB + 1, 一 工 + ibm)) 


其 中 ,5 = 2x/lIn2,B(n+1,-1+ibm)) = Tin+ DT(-1+imb)/T(n + ibm) = zt 
一 1 十 1p72 )。 
了 > 55.[22] 说 明 应 该 如 何 修改 程序 Q, 使 得 分 划 的 元 素 是 3 个 键 码 (28) 的 中 值 。 


56.[LM43]」 当 程 序 已 经 修改 成 如 习题 55 中 那样 取 3 个 元 素 的 中 值 时 , 试 分 析出 现 于 算法 QQ 的 
运行 时 间 中 诸 量 的 平均 特性 [参考 习题 29]。 


5.2.3 通过 选择 进行 排序 


为 一 类 重要 的 排序 技术 是 以 重复 选择 的 思想 为 基础 的 。 最 简单 的 选择 方法 可 
能 如 下 : 

i) 求 最 小 的 键 码 ; 传 送 对 应 的 记录 到 输出 区 域 ;然后 以 值 “ce”( 假 定 它 高 于 任何 
实际 的 键 码 ) 代 替 这 个 键 码 。 

ii) 重 复 步 又 说。 这 次 将 选 出 第 二 个 最 小 的 键 码 ,因为 最 小 的 键 码 已 为 cc 所 代 
蔡 。 

iii) 继 续 重 复 步骤 i) 直 到 已 经 选择 了 N 个 记录 为 止 。 

一 个 选择 方法 要 求 在 排序 开始 之 前 所 有 的 输入 项 目 均 已 出 现 , 而 且 它 顺序 地 逐 
个 产生 最 后 的 输出 。 这 实质 上 正好 与 插入 法 相反 ,在 插入 法 中 ,输入 被 顺序 地 接收 ， 
但 在 完成 排序 之 前 并 不 知道 任何 最 后 的 输出 。 

每 次 选择 出 一 个 新 记录 时 步骤 i) 涉 及 N -1 次 比较 ,而 且 它 在 内 存 中 也 需要 一 
个 分 开 的 输出 区 域 。 但 我 们 显然 能 做 得 更 好 些 ; 通 过 把 被 选择 的 记录 同 当 前 占有 此 
记录 最 后 适当 位 置 的 那个 记录 进行 交换 ,我 们 就 可 把 被 选择 记录 移动 到 它 最 后 的 适 
当 位 置 ,然后 在 将 来 的 选择 中 我 们 就 不 必 再 考虑 该 位 置 了 。 因 而 我 们 也 不 需要 考虑 
无 穷 键 码 。 这 个 思想 就 产生 了 我 们 的 头 一 个 选择 排序 算法 。 

算法 $ (直接 选择 排序 ) 适 当 重 新 安排 记录 R1,…, Rw ;在 完成 排序 后 ,它们 的 
键 码 将 是 有 序 的 Ki 二 … 声 Kn。 排序 是 以 上 边 指出 的 方法 为 基础 的 ,但 改 为 首先 选 
最 大 元 素 , 紧 接着 选择 第 二 个 最 大 的 ,等 等 ,这 样 做 证 明 是 更 为 方便 的 。 

S1. [对 7 进行 循环 ] 对 j= N,N 一 1,…2 执行 步骤 S2 和 S3。 

S2.[ 找 max( Ki1,.…,K,)) 碍 一 过 K;, Kj;-1,… Ki, 以 找 出 一 极 大 者 , 设 它 为 

K,; ,其 中 i 尽 可 能 地 大 。 
S3.[ 同 R; 进行 交换 ] 交换 记录 R;> R;( 现 在 诸 记 录 R;,…, Rw 都 处 于 它们 的 
最 后 位 置 处 )。 


表 1 示 出 了 本 算法 应 用 于 16 个 键 码 示例 的 情况 ;在 自 右 至 左 的 查找 期 间 ( 步 又 
S2) ,作为 极 大 值 被 选 出 的 元 素 以 黑体 标 出 。 


“了 3J2 。 


S1. 对 7 进行 循环 


图 21 
表 1 
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S3. 同 尺 ; 进行 交换 





直接 选择 排序 
直接 选择 排序 


154 509 677 765 703| 
154 509 677 76S| 908 
154 509 677| 897 908 
154 509 765 897 908 


154 $09 | 765 897 908 
154| 677 765 908 





对 应 的 MIX 程序 是 十 分 简单 的 。 


程序 S$S (直接 插入 排序 ) 


653 677 765 908 


同 本 章 中 以 前 的 程序 一 样 ,单元 INPUT+ 1 到 INPUT+ 


N 中 的 诸 记 录 按 一 个 全 字 长 键 码 就 地 排序 ;rA 二 当前 极 大 值 ,rl1 二 j -1,r12 寺 kk( 当 
前 查找 的 位 置 ),r13 三 i ,假定 N 宕 2。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 


START ENT1 
2H ENT2 


8H CMPA 


8B 
INPUT+1,1 
INPUT , 3 
INPUT+ 1,1 
1 

2B 


N-1 
N -1 
N-1 
N-1 
N-1 


3S1. 对 7 进行 循环 。7J 二 六 
S$S2. 拢 max(Ki,*…,K.)。 k<;—!1 
ij 


rA—— KK. 


如 果 K; 宇 K, 则 转换 
否则 , 置 i 一 & 
rA—K, 

k<—k—l1 

如 果 有 >0, 重 复 

S3. 同 尺 进行 交换 
Ri< 一 R 

RrA 


NN 之 j 之 2 | 


这 个 程序 的 运行 时 间 依 赖 于 项 目 数 N ;比较 的 次 数 A ;以 及 “ 自 右 至 左 的 极 大 ” 
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的 改动 次 数 中。 容易 看 出 ,不论 输 入 键 码 的 值 为 何 , 有 


N 1 

4=| ] = 去 NON -2 (1) 
2 

因此 仅仅 B 是 可 变 的 。 尽 管 直 接 选 择 很 简单 ,这 个 量 B 也 是 不 易 精确 地 分 析 的 。 

习题 3 到 6 指出 


B = (min0,ave (N + 1)H» - 2N ,max LN’/4)) (2) 


在 这 种 情况 下 , 极 大 值 显得 特别 有 趣 。B 的 标准 差 有 NN 的 阶 , 见 习题 7。 

于 是 程序 S 的 平均 运行 时 间 是 2.5N*+3(N+1)Hw+3.5N 一 11 个 单位 , 它 仅 
比 直 接 插 入 (程序 5.2.1S) 稍 慢 些 。 把 算法 S 同 冒 泡 排序 (算法 5.2.2B) 进 行 比 较 是 
有 趣 的 ,因为 冒 泡 排序 可 以 看 做 是 一 个 选择 算法 , 它 有 时 一 次 选择 出 多 于 一 个 元 素 。 
由 于 这 一 原因 , 冒 泡 排序 通常 比 直接 选择 要 少 做 些 比较 ,而 且 可 能 显得 还 优越 一 些 ; 
但 事实 上 ,程序 5.2.2B 比 程序 S 慢 两 倍 多 ! 冒 泡 排序 逊色 的 原因 是 它 进行 那么 多 
的 交换 ,而 直接 选择 包含 非常 少 的 数据 移动 。 


直接 选择 的 精 化 ”有 什么 途径 来 改进 用 于 算法 S 中 的 选择 方法 呢 ? 例如 ,步骤 
S2 中 对 于 极 大 值 的 查找 ,是 否 有 一 个 快 得 多 的 方法 呢 ?” 对 于 后 一 个 问题 的 回答 是 
否定 的 1 


引 理 M 企 何 以 比较 元 对 对 但 为 基础 的 在 n 个 元 灶 中 村 找 极 大 者 的 算法 , 必 
须 至 少 做 对- 工 次 比 枕 。 

证 明 ”如 果 比 较 少 于 n 一 1 次 , 则 至 少 有 两 个 元 素 , 它 们 从 未 被 发 现 是 小 于 任何 
其 它 元 素 的 。 因 此 ,就 不 会 知道 这 两 个 元 素 中 哪 一 个 是 较 大 的 ,从 而 也 就 不 能 确定 
极 大 者 。 | 


于 是 ,任何 寻找 最 大 元 素 的 选择 过 程 必须 至 少 进行 n -1 步 ; 因 此 我 们 可 能 会 怀 
疑 ,所 有 以 n 次 重复 的 选择 为 基础 的 排序 方法 ,其 步骤 的 阶 数 是 否 都 注定 为 Q(n“) 
次 运算 ? 幸而 , 引 理 M 仅 适 用 于 头 一 个 选择 步骤 。 随 后 的 选择 可 以 利用 前 面 已 获 
得 的 信息 。 例 如 ,习题 8 和 9 指出 ,对 算法 S 稍 加 改变 就 把 平均 次 数 削 减 了 一 半 。 

考虑 表 1 中 的 16 个 数 ; 节 省 重复 选择 时 间 的 一 个 方法 是 把 它们 看 做 4 个 四 元 
组 。 我 们 可 以 从 确定 每 个 组 的 最 大 元 素 开始 ,这 些 最 大 元 素 的 键 码 是 


512 ,908 ,653,765 


这 4 个 元 素 的 最 大 者 是 908, 因 而 也 是 整个 文件 的 最 大 者 。 为 了 获得 第 二 个 最 大 者 ， 
仅仅 需要 考虑 512,653,715 和 包含 908 的 组 中 其 它 3 个 元 素 ; 和 170,897,275} 中 最 
大 者 是 897 ,而且 


512,897,653,765 
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的 最 大 者 是 897。 类 似 地 ,为 了 得 到 第 三 个 最 大 的 元 素 , 先 确定 1170,2751 中 的 最 大 
者 ,然后 找 


512,275S ,033 ,763 


的 最 大 者 。 在 头 一 个 之 后 的 每 一 个 选择 ,至 多 花费 5 个 附加 的 比较 。 一 般 说 来 ,如 
果 N 是 一 个 完全 平方 , 则 可 以 把 文件 分 成 为 VN 个 VN 元 组 ;在 头 一 次 选择 之 后 ,每 
个 选择 至 多 在 以 前 选择 了 项 目的 组 中 花费 VN -2 次 比较 ,加 上 在 “各 组 尖子 "当中 
的 VN -1 次 比较 。 这 一 思想 被 称 为 二 次 选择 ; 它 的 总 共 执行 时 间 是 O(N VN ) ,这 
比 阶 N? 要 好 得 多 。 

二 次 选择 首先 由 E.H. Friend[JACM 3 (1956),152 一 1S4] 提 出 ,他 指出 同一 思 
想 可 推广 到 三 次 .四 次 选择 以 及 更 高 次 的 选择 。 例 如 ,三 次 选择 把 文件 划分 成 VN 
个 大 组 ,每 一 大 组 包含 六 个 小 组 ,每 个 小 组 包含 VN 个 记录 ;执行 时 间 与 N VN 成 
比例 。 如 果 把 这 个 思想 引 到 它 最 终 的 结论 , 则 就 得 到 了 Friend 所 谓 的 以 一 个 二 又 树 
结构 为 基础 的 “n 次 选择 ”。 这 个 方法 的 执行 时 间 与 NlogN 成 比例 ,我们 称 它 为 树 
选择 。 

树 选择 ”借助 典型 的 “淘汰 赛 " 中 的 对 驹 , 很 容易 理解 树 选择 排序 的 原理 。 例 
如 ,考虑 图 22 中 乒乓 球 比 赛 的 结果 ,在 底层 , Kim 战胜 Sandy, Chris 战胜 Lou; 然 后 
在 下 一 轮 ,Chris 战胜 Kim ,等 等 。 


Chris 







Chris 





Kim | Sandy Chris | Lou Pat | Ray Dale 


22 ”一 场 乒 乓 球 锦标 赛 


图 22 示 出 Chris 是 8 个 选手 中 的 冠军 ,而 且 为 确定 这 一 事实 要 求 8-1=7 次 比 
赛 /比较 。Pat 不 一 定 是 第 二 个 最 好 的 选手 。 被 Chris 打败 的 任何 一 个 选手 ,包括 头 
_ 轮 的 失利 者 Lou ,都 可 能 是 第 二 个 最 好 者 ,可 以 通过 Lou 和 Kim 比赛 ,而 这 比赛 的 
胜 者 同 Pat 比 ,来 确定 第 二 个 最 好 的 选手 ; 由 于 我 们 已 经 从 前 几 场 比赛 中 记 住 了 这 
个 结构 ,为 找 出 第 二 个 最 好 的 选手 ,只 需要 两 场 附加 的 比赛 。 

一 般 说 来 ,我 们 可 以 在 树 的 根 处 “输出 ”选手 ,然后 重新 进行 比赛 ,就 好 像 该 选手 
病 了 而 未 能 发 挥 出 最 佳 水 平 。 于 是 原来 第 二 个 最 好 的 选手 就 将 升 到 根 的 位 置 ;而 且 
在 树 的 上 层 重 新 计算 胜 者 。 为 此 目的 只 有 一 条 通路 必须 改变 。 由 此 得 出 ,为 选择 第 
二 个 最 好 的 选手 ,只 需要 少 于 [lg N | 次 进一步 的 比较 。 同 样 的 过 程 将 找 出 第 三 个 最 
好 的 ,等 等 。 因 此 ,如 同上 面 所 断言 的 那样 ,对 于 这 样 一 个 选择 排序 ,将 大 体 上 同 
NilogN 成 比例 。 
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图 23 示 出 对 于 我 们 的 16 个 示例 数字 进行 中 的 树 形 选 择 排序 ,注意 为 了 知道 在 
哪里 插入 下 一 个 “=- ce” ,我 们 需要 知道 根 处 的 键 码 来 自 何 处 。 因 此 树 的 每 个 分 支 节 
点 实际 上 应 包含 确定 相关 联 的 位 置 的 一 个 指针 或 下 标 , 而 不 是 键 码 本 身 。 由 此 得 
出 ,我 们 需要 能 存储 N 个 输入 记录 、N =- 1 个 指针 和 N 个 输出 记录 (或 指向 这 些 记 
录 的 指针 ) 的 和 存储 空间 (当然 ,如 果 输 出 送 到 磁带 或 磁盘 上 , 那 我 们 就 不 需要 在 高 速 
内 存 中 保留 输出 记录 )。 

读者 应 在 此 处 暂时 停 下 ,而 来 做 一 做 习题 10, 因 为 对 于 树 选择 基本 原理 的 一 个 
好 的 理解 ,将 会 更 有 助 于 评价 我 们 即将 讨论 的 一 些 重大 改进 。 

修改 树 选 择 的 一 个 方法 ,实质 上 是 由 K.E. Iverson[A Programming Lanuage 
(Wiley 1962).223 一 227] 引 进 的 。 通 过 以 下 列 方式 的 “向 前 看 "就 可 以 去 掉 对 指针 的 
和 需要, 当 在 树 的 底层 中 比赛 的 优胜 者 被 上 移 时 ,在 底层 处 原来 优胜 者 的 值 就 立即 以 
- co 来 代 蔡 ;而 且 每 当 一 个 优胜 者 从 一 个 分 枝 上 移 到 另 一 个 分 枝 时 , 它 留 下 的 位 置 
即 可 由 最 终 应 当 上 移 到 此 位 置 的 那个 值 ( 即 下 面 两 个 键 码 中 的 较 大 者 ) 来 代替 。 尽 
可 能 重复 这 个 操作 就 把 图 23(a) 转 换 成 图 24。 

一 旦 以 这 种 方式 建立 了 树 ,我 们 就 可 以 以 “由 顶 向 下 ”的 方法 ,而 不 是 图 23 中 由 
底 向 上 的 方法 ,来 进行 排序 。 输 出 根 , 然 后 上 移 它 最 大 的 后 商 , 然 后 再 上 移 后 者 最 大 
的 后 裔 ,等 等 。 这 个 过 程 开始 看 起 来 不 大 像 乒 乓 球 的 淘汰 赛 , 而 更 像 是 团体 选拔 系 
统 。 

谈 者 应 能 看 出 ,这 个 由 顶 向 下 的 方法 有 一 个 优点 , 即 可 以 避免 - cc 和 -co 的 多 
余 比 较 ( 由 底 向 上 的 方法 在 排序 的 稍 后 阶段 将 发 现 到 处 都 是 - co ,而 由 顶 向 下 的 方 
法 则 在 每 个 阶段 中 存 进 一 个 - % 后 便 停 止 修改 树 )。 

图 23 和 图 24 是 具有 16 个 终端 结 点 的 完备 二 又 树 (参见 2.3.4.5 小 节 ) ,而且 
以 图 25 所 示 的 连续 单元 来 表示 这 样 一 株 树 是 方便 的 。 注 意 , 号 码 为 的 节点 的 父 
亲 是 节点 | &/21, 而 它 的 儿子 是 节点 2& 和 2k +1。 这 就 导出 了 由 顶 向 下 方法 的 另 一 
个 优点 ,因为 由 顶 向 下 从 节点 到 节点 2& 和 2k+1, 比 起 由 底 向 上 从 节点 到 节点 
kl1 和 | &A/2j (这 里 依据 & 是 偶数 或 奇数 ,& 引 1 分 别 表示 有 +1 或 一 1) 往 往 要 更 
简便 得 多 。 

至 今 树 选择 的 例子 都 或 多 或 少 地 假定 了 N 是 2 的 一 个 乘 方 ;但 是 实际 上 NN 可 
以 是 任意 的 ,因为 很 容易 对 任何 的 N ,构造 具有 N 个 终端 结 点 的 完备 二 又 树 。 

现在 遇 到 了 决定 性 的 问题 :能 否 全 然 不 使 用 - ce 来 实施 由 顶 向 下 的 方法 ? 如 果 
图 24 的 重复 信息 全 存在 完备 的 二 又 树 单元 1 到 16 中 ,而 不 必 包 含 - ce 的 无 用 “ 空 
和 从”, 岂 不 是 很 好 吗 ? 稍 经 思索 表明 ,的 确 可 能 达到 这 一 目标 ,不 仅仅 是 消去 - co ,而 
且 有 可 能 对 NN 个 记录 就 地 排序 ,而 无 须 使 用 任何 辅助 的 输出 区 域 。 这 是 一 个 重要 
的 排序 算法 , 它 的 发 现 者 J],W.J. Williams 为 之 取 名 “ 堆 排 序 ”"[CACM 7 (1964) ,347 
~348]。 


堆 排序 ”我们 称 键 码 Kj ,KK,,… ,Kn 的 一 个 文件 为 一 个 “ 堆 ” ,如 果 
天 1i2 之 天; 对 于 1<l;j/2j <j 过 NN (3) 
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一 一 
908 765 
和 > 
908 653 


503 512 908 897 653 509 677 765 


/ \ 


503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 
(a) 初始 配置 


一 一 ~ 
897 765 
和 一 
897 653 


503 512 170 897 653 509 677 765 


/ \ 


503 087 512 061 —o00 170 897 275 653 426 154 509 612 677 765 703 
(b) 908 为 一 co 所 代替 , 第 二 高 的 元 素 上 移 至 根 


503 512 170 275 426 509 


八 八 和 八 人 和 八 和 八 从 


503 087 512 061 -oo 170 —00 275 一 co 426 154 509 一 oo 一 oo 一 co 一 oo 
(c) 输出 了 908, 897, 765, 703, 677, 653, 和 612 之 后 的 配置 
图 23 树 选 择 排 序 的 一 个 例子 


A A 
八 /\ /\ /\ /\ /\ /\ 人 和 人 


一 co 087 一 oo 一 oo 一 oo -co —00 一 oo 一 co 一 co 154 一 co 612 一 co -0 一 co9 


图 24 应 用 于 排序 的 彼得 原理 ,每 个 人 在 这 个 层次 中 都 上 升 到 他 失败 的 层 上 
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全 (3) 
4) 5) 3 7 
(8) 0 0 WW 3 0) (WW (9 


16| l17| bs Li9| Lol [2y l22) [23] [24) [25) [26| [27| [28| [29| |30| (31 
图 25 一 株 完 备 二 叉 树 的 顺序 存储 分 配 


例如 K1 宇 K;,K1 宇 K;,K, 之 K4, 等 等 ;这 恰 是 在 图 24 中 成 立 的 条 件 , 而 且 , 它 意味 
着 最 大 的 键 码 出 现在 “ 堆 的 顶部 ” 


六 | 一 max(Ki, K,,…, Kn) (4) 


如 果 能 够 设法 把 一 个 任意 的 输入 文件 转换 成 一 个 堆 , 则 就 可 以 使 用 一 个 如 上 所 述 的 
“由 顶 向 下 ”的 选择 过 程 , 来 得 到 一 个 有 效 的 排序 算法 。 

R.W.Folyd 提出 了 建立 堆 的 有 效 方法 [CACM 7 (1964),701]。 假 定 已 经 有 能 
力 来 安排 这 个 文件 ,使 得 

Kijpj 宇 K1 对 于 7<Lj/2j < 7 和 过 六 (5) 

其 中 7 是 某 个 宇 1 的 数 (在 原来 的 文件 中 ,这 个 条 件 对 于 /= LN/2J4“ 空 虚 地 ”成 立 , 因 
为 不 存在 满足 条 件 |L N/2]<Lj;/2j<j 三 NN 的 下 标 ;)。 不 难看 出 应 该 怎样 变换 这 个 
文件 ,使 得 (5) 中 的 不 等 式 可 以 推广 到 | ;/2」= 1 的 情况 ,使 它 在 以 节点 /7 为 根 的 整个 
子 树 中 都 成 立 。 因 此 可 以 将 1 减 1, 直 到 最 终 达 到 条 件 (3)。Williams 和 Folyd 的 这 
些 思想 导致 了 下 面 的 新 颖 算法 ,值得 仔细 地 研究 。 


算法 开 ( 堆 排序 ) 适当 地 重新 安排 记录 RI,…, RN ;在 完成 了 排序 之 后 ,它们 
的 键 码 将 是 有 序 的 ,Ki 三 … 三 KN。 首先 ,重新 安排 文件 ,使 得 它 形成 一 个 堆 , 然 后 
反复 地 撤销 堆 顶 ,并 把 它 传送 到 适当 的 最 后 位 置 。 假 定 N 宇 2。 
H1. [初始 化 ] 置 /< 二 LN/2 1+1,r< 二 No。 
H2. [7 或 r 减 值 ] 如 果 71>1, 则 置 /一 1 一 1;,R 一 Rj,K 一 K,( 如 果 1>>1, 则 处 于 
把 输入 文件 变换 为 一 个 堆 的 过 程 中 ;如 果 1 =1, 则 键 码 KK,…K, 已 组 成 
一 个 堆 )。 否 则 , 置 R 一 R,,K 一 K,,R, 一 Ri, 以 及 r+ 一 r 一 1; 如 果 这 使 得 
=1, 则 置 Rj 一 R ,并 旦 终止 这 个 算法 。 
H3. [准备 “筛选 "] 置 /<!( 这 时 ,对 于 r<k 志 NN ,我 们 有 
KiD 志 氏 ， 对 于 1<Lk/2]<k<r (6) 
而 且 记 录 R 处 于 它 最 后 的 位 置 。 步 又 H3 一 H8 称 为 “筛选 "算法 ;它们 的 
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效果 等 价 于 置 R, 一 R 然后 重新 安排 RR, ,…, R, ,使 得 条 件 (6) 对 于 /=|&/ 
2 也 成 立 。) 

[向 下 进行 ] 置 ;< 一) 和 ;< 一 2;( 在 下 列 步 又 中 ,我 们 有 i=|j/24)。 如 果 j< 
7 , 则 一 直 前 进 到 步骤 H5; 如 果 ;=r, 则 转 到 步骤 H6; 如 果 j >yr, 则 转 到 
H8。 

[ 找 “ 较 大 的 "儿子 ] 如 果 K;<<K;;1, 则 置 jj +1。 


H6.[ 大 于 K?] 如 果 KK 宇 K;, 则 转 到 步骤 H8。 
H7.[ 上 移 它 ] 置 R; 一 R;, 并 运转 到 步 又 H4。 
H8.|[ 存 储 R] 置 Ri 一 R( 这 终止 了 起 始 于 步骤 H3 的 “篇 选 * 算 法 )。 返 回 到 步 


又 H2。 | 


由 于 / 和 7 的 运动 , 堆 排序 有 时 被 描述 作 “ 乌 "算法 。 上 三 角形 表示 当 r=N 且 
/ 减 小 到 1 时 堆 的 建立 阶段 ,而 下 三 角形 表示 当 /=1 且 7 减 小 到 1 时 的 选择 阶段 。 
表 2 示 出 了 对 16 个 示例 数字 的 堆 排 序 过 程 ( 表 中 的 每 行 示 出 在 步骤 H2 之 后 的 状 
态 , 方 括号 表示 位 置 / 和 7)。 












{=r+=1 


图 26 堆 排 序 , 虚 线 包 括 的 是 “篇 选 " 算 法 
表 2 堆 排 序 示 例 
K，, K; Ks, kK; Ks K, Ks kK， Kio Ki 天 12 Ki Ka Kis Kis l r 
154 509 612 677 765 703] 
154 509 612 677 765 275 
154 509 612 677 765 275 





] 
] 
154 509 170 677 765 275] 
] 


154 509 170 677 763 275 
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( 续 ) 
K! KK K; Ks Ks Ke K; Ks Ks Ko Ky Ky Ky Ky KK 1 > 
503 087 512 908 612 426 154 509 170 677 765 061]4 16 
503 087 [897 908 612 426 154 509 170 677 512 061]3 16 
503 [908 897 426 612 087 154 509 170 677 512 061]2 16 


[908 703 897 426 612 087 154 509 170 677 512 061]1 16 


[897 703 765 426 612 087 154 509 170 061 5121908 15 
L765 703 677 426 612 087 509 170 061]897 908 14 
[L703 653 677 426 612 087 154 509 170]765 897 908 13 
[677 653 612 426 509 087 154 170]703 765 897 908 12 
L653 503 612 426 509 087 154]677 703 765 897 908 11 
[612 503 512 426 509 087|] 653 677 703 765 897 908 
[512 S09 426 087 612 653 677 703 765 897 908 
| 509 426 087 612 653 677 703 763 897 908 
L503 273 170 087 612 653 677 703 765 897 908 
L426 061 170 087] 612 653 677 703 765 897 908 
[L275 061 087] 426 612 653 677 703 765 897 908 
[170 061] 275 426 612 653 677 703 763 897 908 
[154 170 275 426 612 653 677 703 763 897 908 
[087 170 273 426 012 653 677 703 763 897 908 


程序 H( 堆 排序 ) 通过 算法 互 , 对 单元 INEUT+ 工 到 INPUT+N 的 诸 记 录 进 行 排 
序 ,并 对 寄存 器 赋值 如 下 :rll 三 / -1,rl2 夺 7r -1,rl3 二 i,rI4 三 j ,rl5 寺 7r ~ j,rA 三 K 





三 K ,rX=R,。 

01 START ENT1 N/2 1 HI. 初始 化 。L1<LN/21+1 
02 ENT2 N-1 1 rN 

03 1H DEC1 1 LN/2j /< 一 1 

04 LDA INPUT+1,1 LN/2| R<-R,, Ko—K, 

05 3H ENT4 1 ,1 P H3. 准备 “得 选 ”。j</ 
06 ENT5 0 ,2 P 

07 DEC5 0 ,1 P rIS<-y 一 ) 

08 JMP 4F 了 转 H4 

09 5H LDX INPUT,4 B+A-D HH5. 找 “ 蒋 大 的 "儿子 
10 CMPX INPUT+ 1,4 B+A~D 

11 JGE 6F B+A-D 如 果 KK; 之 K;,1 则 转移 
12 INC4 1 C 否则 , 置 y<7+1l 

13 DEC5 1 C 
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14 9H LDX INPUT,4 C+D rX<—R, 

15 6H CMPA INPUT,4 B+A H6. 大 于 天? 

16 JGE 8F B+A 如 果 K 宇 Kj, 则 转 到 H8 

17 7H STX INPUT,3 B H7. 上 移 它 。 Ri 一 R 

18 4H ENT3 0 ,4 B+P H4. 向 下 进行 。i 一 j 

19 DECS 0,4 B+P rI5<-rI5 一 ) 

20 INC4 0 ,4 B+P jj 

21 J5P 5B B+P 如 果 j<y, 则 转 到 H5 

22 J52 9B P-A+D 如 果 j=7, 则 转 到 H6 

23 8H STA INPUT,3 Pp H8. 存储 R。R 一 R 

24 2H JIP 1B P H2.1 或 + 减 人 

25 LDA INPUT + 1,2 N-1 如 果 1 二 1, 则 置 RR,,K<K， 

26 LDX INEUT + 工 N-—1 

27 STX INPUT+ 1,2 N-1 RR, 

28 DEC2 1 N-1 je] 

. pn 、 如 果 x >1, 则 转 到 H3 
RIO—R | 


尽管 这 个 程序 的 长 度 大 约 仅 是 程序 S 的 两 倍 ,但 当 NN 很 大 时 , 它 更 为 有 效 。 雍 
的 运行 时 间 依 赖 于 

P=N+lLNi21-2, 筛 选 扫 摘 的 次 数 ; 

A 使 键 码 K 最 终 固定 在 堆 的 一 个 内 部 节点 上 的 稀 选 扫描 次 数 ; 

B 在 筛选 期 间 被 提升 的 键 码 总 数 ; 

C 步骤 HSs 中 j 一 +1 的 次 数 ; 

D 步 台 HH4 中 j=r 的 次 数 。 
这 些 量 将 在 下 面 进行 分 析 。 实 际 上 ,它们 围绕 其 平均 值 的 波动 相当 小 

A -0.3490N,B 2 NlgN -1.87N 
C ~ NIgN -0.9N,D 一 InN (7) 

例如 , 当 N = 1000 时 ,对 于 随机 输入 的 4 项 实验 分 别 给 出 A = 371,351,341,340;B 
= 8055,8072,8094,8108;C=4056,4087,4017,4083;D=12,14,8,13。 因 此 ,总 运 
行 时 间 7A +14B +4C +20N 一 2D+15LN/2] 一 28, 平 均 说 来 近似 于 16NlgN + 
0.01N 个 单位 。 

根据 表 2 我 们 很 难 相 信 , 堆 排序 是 非常 有 效 的 ;在 把 大 的 键 码 藏匿 在 右边 之 前 
左 移 之 ! 当 N 很 小 时 , 它 确实 是 不 可 思议 的 排序 方法 ; 表 2 中 16 个 键 码 的 排序 时 
间 是 1068* ,而 简单 的 直接 插入 法 (程序 5.2.1S) 仅 花费 514u。 直 接 选 择 法 (程序 
S) 花 费 853u。 

对 于 较 大 的 N ,程序 H 更 为 有 效 。 由 于 程序 HShell 排序 (程序 5.2.1D) 和 和 快 
速 排序 (程序 5.2.2Q) 这 3 个 程序 都 通过 键 码 的 比较 进行 排序 ,而且 较 少 或 不 用 畏 
助 存 诸 , 当 N = 1000 时 ,在 MIX 上 近似 的 平均 运行 时 间 是 (MIX 是 典型 的 计算 机 ,但 
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特殊 的 机 器 当然 会 产生 稍微 不 同 的 相对 数值 ) 

堆 排 序 160000z 

Shell 排序 130000z 

快速 排序 80000z 
当 N 变 得 更 大 时 , 堆 排 序 将 优 于 Shell 排序 ,但 它 的 渐 近 运行 时 间 16Nlg N = 
23.08Nin NN 将 决 不 超过 快速 排序 的 11.67NinN。 习 题 18 中 所 讨论 的 对 堆 排 序 的 
修改 ,将 提高 在 许多 计算 机 上 的 处 理 速度 ,但 即使 经 过 改进 也 仍然 赶不上 快速 排序 。 

另 一 方面 ,快速 排序 仅仅 是 平均 有 效 的 , 它 的 最 坏 情 况 达 到 N* 阶 。 而 堆 排序 
则 具有 有 趣 的 性 质 , 即 它 的 最 坏 情 况 并 不 比 平 均 情 况 坏 多 少 ,我 们 总 有 

AZ1l.5N, BNIgN], C<NIIeN| (8) 

所 以 不 论 输 入 数据 的 分 布 如 何 ,程序 H 花费 的 时 间 单 位 将 不 多 于 18NL lgN | + 
38N。 堆 排序 是 已 见 的 第 一 个 保证 具有 NlgN 阶 的 排序 方法 。 下 面 5.2.4 小 节 中 
讨论 的 合并 排序 也 有 这 个 性 质 ,但 它 要 求 较 多 的 存储 空间 。 


最 大 者 先 出 ”在 第 二 章 中 我 们 已 经 看 到 ,线性 表 通 常 可 以 按照 对 其 所 实施 的 插 
入 和 删除 操作 的 特性 ,合理 地 划分 为 不 同 的 类 型 。 插 入 和 删除 操作 使 这 些 线性 表 增 
长 和 缩小 ,在 每 次 删除 都 是 撤销 表 中 最 年 轻 的 项 目 这 一 意义 下 ,一 个 栈 有 “后 进 先 
出 ”的 特性 。 所 谓 最 年 轻 的 项 目 是 指 在 所 有 当前 存在 的 项 目 中 最 新 插入 的 项 目 。 而 
一 个 简单 的 队 ,在 每 次 删除 都 是 撤销 剩 下 的 最 老 的 项 目 这 一 意义 下 , 则 有 “先进 先 
出 "的 特性 。 在 更 复杂 的 情况 下 ,例如 2.2.5 小 节 的 电梯 模拟 ,需要 一 个 “最 小 者 先 
出 " 表 ,其 中 每 次 删除 都 是 撤销 有 最 小 键 码 的 项 目 。 这 样 一 个 表 可 以 称 为 一 个 优先 
队列 ,因为 每 个 项 目的 键 码 反映 了 它 迅 速 离开 这 个 表 的 相对 能 力 。 选 择 排序 是 优先 
队列 的 特殊 情况 ,其 中 我 们 在 做 了 N 次 插入 之 后 ,接着 做 N 次 删除 。 

优先 队列 有 广泛 的 应 用 。 例 如 , 某 些 数值 迭代 方案 是 以 重复 选择 符合 某 项 测试 
准则 的 最 大 (或 最 小 ) 值 的 项 目 为 基础 的 。 选 中 的 项 目的 参数 被 改变 ,并 根据 参数 的 
新 值 , 按 新 的 测试 值 重新 插入 到 表 中 。 操 作 系 统 通 常 利用 优先 队列 进行 作业 调度 。 
习题 15、29 和 36 提出 了 优先 队列 其 它 典 型 的 应 用 。 在 后 面 数 章 中 将 出 现 许多 其 它 
的 例子 。 

应 如 何 实现 优先 队列 呢 ? 显然 的 方法 之 一 是 维持 一 个 排 好 序 的 表 , 其 中 按键 码 
的 次 序 排列 诸 项 目 。 于 是 , 播 入 一 个 新 项 目 实质 上 就 是 我 们 在 5.2.1 小 节 插 入 排序 
的 研究 中 所 讨论 的 同样 问题 。 另 一 个 处 理 优 先 队 列 的 甚至 更 为 显然 的 方法 ,是 以 任 
意 次 序 保持 元 素 表 ,每 当 需 要 删除 具有 最 大 (或 最 小 ) 键 码 的 元 素 时 ,就 把 这 个 元 素 
找 出 来 。 这 两 个 显然 的 方法 ,麻烦 都 在 于 : 当 在 表 中 有 N 项 时 ,插入 或 删除 要 求 
9O(N) 步 。 所 以 当 N 很 大 时 ,它们 是 非常 消耗 时 间 的 。 

Williams 在 关于 堆 排 序 的 开创 性 论文 中 指出 ,把 堆 应 用 于 大 的 优先 队列 是 很 理 
想 的 ,因为 我 们 可 以 在 O(logN) 步 中 向 一 个 堆 捅 人 或 从 一 个 堆 删 除 元 素 ; 而 且 , 堆 
的 所 有 元 素 都 紧凑 地 放置 在 连续 的 存储 单元 中 。 算 法 H 的 选择 阶段 是 一 系列 按 有 最 
大 者 先 出 过 程 的 删除 步骤 :为 删除 最 大 的 元 素 开 ; ,我 们 撤销 它 ,并 *^ 筛 选 " 出 Kw 进 
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入 NN -1 个 元 素 的 新 堆 中 (如 果 如 同 在 电梯 模拟 中 那样 要 一 个 最 小 者 先 出 算法 , 则 
显然 可 以 改变 堆 的 定义 ,使 得 在 (3) 中 “ 宇 ” 变 成 为 “ 生 ”; 为 了 方便 起 见 , 在 这 里 只 孝 
虑 最 大 者 先 出 的 情况 )。 一 般 地 说 ,如 果 要 删除 最 大 的 项 目 ,然后 插入 一 个 新 的 元 系 
> , 则 可 以 以 /=1r=N, 和 天 =>z 来 进行 筛选 过 程 。 如 果 和 希望 插入 一 个 元 素 x, 而 
无 须 预先 删除 堆 中 的 元 素 , 则 可 以 使 用 习题 16 的 “由 底 辐 上 的 过 程 。 


优先 队列 的 一 个 链接 表示 “把 优先 队列 表示 为 链接 二 叉 树 的 一 个 有 效 方 法 是 
1971 年 由 (Clark A. Crane 发 现 的 Technical Report SATN-CS-72 259(Computer Sci- 
ence Department, Stanford University 1972 ] 。 他 的 方法 要 求 在 每 个 记录 中 有 两 个 链 
接 字 段 和 一 个 小 的 计数 , 比 起 堆 来 它 有 下 列 优 点 : 

i) 当 优 先 队 列 被 处 理 为 一 个 栈 时 ,插入 和 删除 操作 花费 的 时 间 是 固定 的 ,与 队 

列 大 小 无 关 。 

ii) 这 些 记 录 决 不 移动 ,仅仅 改变 指针 。 

iii) 仅 在 O(logN) 步 之 内 就 能 容易 地 把 总 共有 N 个 元 素 的 两 个 不 相交 的 优先 

队列 合并 成 一 个 优先 队列 。 

稍 经 修改 后 的 Crane 的 开创 性 方法 如 图 27 所 示 , 它 展示 了 一 个 特殊 类 型 的 二 
叉 树 结构 。 每 个 节点 包含 一 个 KEY( 键 码 ) 字 段 , 一 个 DIST( 距 离 ) 字 段 , 以 及 两 个 链 
接 字 段 LEFT( 左 ) 和 RIGHT( 右 )。DIST 字段 的 值 总 是 等 于 从 该 节点 到 空 链接 A 的 最 
短 通 路 长 度 。 换 名 话说 , 它 是 从 该 节点 到 最 接近 的 空子 树 的 距离 。 如 果 定 义 DIST 
(A)=0 和 KEY(A)= - co , 则 在 这 株 树 中 的 KEY 和 DIST 字段 满足 下 列 性 质 ， 


KEY(P) 之 KEY(LEFT(P) ) ,KEY(P) 之 KEY(RIGHT(P)) (9 ) 
DIST(P) = 1 + min(DIST(LEFT(P)),DIST(RIGHT(P))) (10) 
DIST(LEFT(P)) 之 DIST(RIGHT(P)) (11) 


关系 (9) 类 似 于 堆 的 条 件 (3), 它 确保 树 根 有 最 大 的 键 码 ;而 关系 (10) 恰 是 上 面 所 述 
的 DIST 字段 的 定义 。 关 系 (11) 是 有 趣 的 新 方法 : 它 意 味 着 到 A 的 最 短 通路 总 可 以 
通过 向 右 移 动 而 得 到 。 我 们 说 ,具有 这 种 性 质 的 树 是 一 个 左倾 树 , 因 为 它 具 有 如 此 
强烈 地 倾向 于 左边 的 趋势 。 

由 这 些 定义 ,显然 ,DIST(P) = ”意味 着 在 P 下 面 至 少 存在 2” 个 空子 树 ; 否 则 ， 
将 有 一 条 更 短 的 通路 从 P 通 到 人。 于 是 ,如 果 在 一 个 左倾 树 中 有 NN 个 节点 , 则 从 根 
向 下 往 右边 走 的 通路 至 多 包含 Llg(N +1) 个 节点 。 通 过 遍历 这 一 通路 ,就 可 能 把 一 
个 新 点 插入 到 优先 队列 中 (见习 题 33); 因 此 ,在 最 坏 情 况 下 仅仅 需要 O(logNN ) 步 。 
当 树 是 线性 的 时 (所 有 RIGHT 链接 都 是 A) 出 现 最 好 的 情况 ,而 当 树 完全 平衡 时 出 现 
最 坏 的 情况 。 

为 了 撤销 在 根 处 的 节点 ,我 们 只 需 合 并 它 的 两 株 子 树 。 合 并 两 个 分 别 由 P 和 0 
所 指向 的 不 相交 的 左倾 树 的 操作 ,从 概念 上 说 是 简单 的 :如 果 KEY(P) 宇 KEY(Q), 则 把 
P 取 作 根 , 把 0 同 P 的 右 子 树 合 并 ;然后 修改 DIST(P) ,必要 时 互 换 LEFT(P) 与 RIGHT 
(P)。 这 一 过 程 的 详细 描述 是 不 难 想 出 来 的 (见习 题 33)。 


优先 队列 技术 的 比较 ” 当 节 点 的 数目 N 很 小 时 ,最 好 使 用 一 种 直截了当 的 线 
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区 习 区 区 
612| 1 
?| 9 
= 节点 格式 
509| 1 
oe]e| 
170| 1 
|e| 
154| 1 


图 27 表示 为 一 株 左 倾 树 的 优先 队列 
性 表 方法 ,来 维持 一 个 优先 队列 ;但 当 N 很 大 时 ,使 用 堆 或 左倾 树 的 logNN 的 方法 显 
然 快 得 多 。 在 6.2.3 小 节 ,将 讨论 把 线性 表 表 示 为 平衡 树 的 问题 ,而 这 就 导致 了 适 
合 于 优先 队列 的 实现 的 第 三 个 logN 方法 。 因 此 对 这 三 项 技术 做 一 比较 是 适当 的 。 
已 经 看 出 ,左倾 树 操作 一 般 比 堆 操 作 稍 微 快 些 ,但 堆 花 费 的 存储 空间 较 少 ,因为 
堆 没 有 链接 字段 。 平 衡 树 大 约 花 费 和 左倾 树 同样 多 的 空间 ,也 许 稍微 少 些 ;其 操作 
比 堆 慢 些 ,而 且 程 序 设计 更 复杂 ,但 平衡 树 结构 在 某 些 方 面 要 灵活 得 多 。 当 使 用 一 
个 堆 或 一 株 左 倾 树 时 ,我 们 不 易 预 测 ,对 于 具有 相等 键 码 的 两 个 项 目 将 发 生 什么 ;不 
可 能 保证 ,具有 相等 键 码 的 项 目 将 以 后 进 先 出 或 先进 先 出 的 方式 被 处 理 , 除 非 把 键 
码 扩展 成 包括 附加 的 “插入 的 顺序 编号 "字段 ,使 得 实际 上 不 出 现 相等 的 键 码 。 为 一 
方面 ,通过 平衡 树 ,能 容易 地 做 出 关于 相等 键 码 的 一 致 的 约定 ,并 且 也 能 做 诸如 在 
y 之 前 (或 之 后 ) 直 接 插 入 z "等 操作 。 平 衡 树 是 对 称 的 ,以 致 能 在 任何 时 刻 删除 最 
大 的 元 素 或 者 最 小 的 元 素 ,而 堆 和 左倾 树 必然 倾向 于 这 边 或 那 边 ( 习 题 31 将 说 明 怎 
样 构造 对 称 的 堆 )。 平 衡 树 既 可 用 作 查 找 , 也 可 用 作 排 序 ;而 且 , 能 颇 为 快速 地 从 一 
株 平衡 树 撤 销 连 续 的 元 素 块 区 。 但 是 一 般 说 来 ,为 合并 两 株 平 衡 树 需要 Q(N ) 步 ， 


而 左倾 树 的 合并 仅 需 O(log NN ) 步 。 

总 之 , 堆 使 用 极 小 的 存储 ;左倾 树 对 于 合并 不 相交 的 优先 队列 是 很 好 的 ;而 如 有 
必要 ,可 以 合理 的 代价 利用 平衡 树 的 灵活 性 。 
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自 上 文 所 讨论 的 Williams 和 Crane 的 开创 性 工作 以 来 ,出 现 了 许多 表示 优 


先 队 列 的 新 方法 ,除了 简单 的 表 、 堆 、 左 倾 树 或 平衡 树 之 外 ,现在 程序 员 有 大 量 的 选 
项 可 供 考 不: 

:分 层 的 树 , 当 所 有 的 键 码 位 于 一 个 给 定 的 范围 0 三 K < M 时 , 它 提供 仅 需 O 
(loglogM ) 步 的 对 称 优先 队列 操作 (P.van Emde Boas ,下 .天 aas 和 E.Zijlstra, 
Math. Systems Theory 10(1977),99~127); 

.二 项 式 队 列 [J.Vuillemin,CACM 12(1978),309~315;M.R.Brown,SICOMP 
7(1978),298~319]; 

.宝塔 式 [] .Francon,G.Viennot 和 J].Vuillemin,FOCS 19 (1978) ,1 一 7]; 

.成 对 堆 [M.L.Fredman,R.Sedgewick,D.D.Sleator 和 R.E.Tarjan Algorithmi- 
ca 1(1986),111~129;]J.T.Stako 和 J.S.Vitter CACM , 30(1987),234~ 
249 | ; 

: 斜 堆 [D.D.Sleator 和 R.E.Tarjan,SICOMP 15(1986) ,52~59|]; 

. 斐 波 那 契 堆 [M.L.Fredman 和 R.E.Tarjan,JACM 34(1987) ,596 一 615j 以 及 
更 一 般 的 AF- 堆 [M.L.Fredman 和 D.E.Willard,J. Computer and system 
Sci. 48 (1994) ,533~551]; 

‘日历 队列 [R.Brown,CACM 31(1988),1220~ 1227;G.A.Davison,CACM 32 
(1989),1241 ~1243]; 

:放松 堆 [J.R.Driscoll, H.N.Gabow, R.Shrairman 和 R.E.Tarjan, CACM 31 
(1988) ,1343 一 1354; 

' 锯 叉 [M.].Fischer 和 M.S.Patersxon,JACM 41(1994) ,3 一 30] ; 

: 热 队 列 [B.V.Cherkassky, A.V.Goldberg 和 C. Silverstein, SODA 8 ( 1997 ) ,83 
一 92 ] ; 


并 非 所 有 这 些 方 法 都 经 得 起 时 间 的 考验 ;左倾 树 实际 上 已 经 过 时 ,除非 应 用 程 
序 具 有 很 强 的 面向 后 进 先 出 特性 的 趋势 。 有 关 二 项 式 队 和 斐 波 那 契 堆 的 详细 实现 
和 解释 ,可 参见 D. E. Knuth. The Stanford GraphBase (New York:ACM Press,1994) 
.475~489。 


* 扒 排序 的 分 析 算法 可 是 相当 复杂 的 ,所 以 它 有 可 能 永远 也 不 会 有 一 个 完备 
的 数学 分 析 ,但 是 推导 它 的 若干 性 质 并 不 会 有 很 大 困难 。 因 此 ,我们 将 通过 稍微 详 
细 地 研究 一 个 堆 的 构造 来 结束 本 小 市 。 

图 28 所 示 为 具有 26 个 元 素 的 一 个 堆 的 形状 ;每 个 节点 都 已 根据 它 在 此 堆 中 的 
下 标 用 二 进 制 数 标 出 。 图 中 的 星 号 表示 所 谓 的 特殊 节点 , 它 位 于 从 1 到 N 的 通路 
上 。 

堆 最 重要 的 属性 之 一 是 它 的 子 树 大 小 的 集合 。 例 如 ,在 图 28 中 以 1,2,…,26 
为 根 的 子 树 的 大 小 分 别 是 
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26"” ,13,10 ,7,7,6 ,3,3,3,3， 


3,3,2 1,1,1,1,1,1,1,1,1,1,1,1,1° (12) 
星 号 表示 以 特殊 节点 为 根 的 特殊 子 树 ; 习 题 20 说 明 ,如 果 N 的 二 进 表 示 是 
N = (bba-1'"b1b0)2,7n = LlgN]| (13) 
则 特殊 子 树 的 大 小 总 是 
(10， 1 2D100)2 16, 2°" b160)2,'"*, (16160)2, (160),,(1), (14) 


非特 殊 的 子 树 总 是 完全 平衡 的 ,所 以 它们 的 大 小 总 是 形 如 2* - 1。 习题 21 说 明 非 特 
殊 子 树 的 大 小 恰 由 


加 _ ”7n-—1 
| 个 | 2 | 个 | > 个 7 No 个 (2" -1) (15) 


所 组 成 。 例 如 ,图 28 含有 12 株 大 小 为 1,6 株 大 小 为 3,2 株 大 小 为 7 和 1 株 大 小 为 
15 的 非特 殊 子 树 。 





图 28 一 个 26= (11010), 个 元 素 的 堆 的 图 示 


设 % 是 其 根 为 1 的 子 树 的 大 小 , MN 是 所 有 这 些 大 小 的 多 重 集合 1 和 51，, 52，…， 
sn|。 利 用 (14) 和 (15), 对 于 任何 给 定 的 NN, 可 以 容易 地 计算 出 Mn。 习题 5.1.4-20 
告诉 我 们 ,把 整数 {1,2,… ,NN| 排列 成 一 个 堆 的 方式 总 数 是 

NI/sisatsy = NI/| [1s! seMnl (16) 
例如 ,放置 26 个 字母 1A ,B,C,…,Z1} 到 图 28 中 ,使 得 竖 线 保持 字母 顺序 ,其 方式 个 
数 为 
261/(26 .10.6.:2-.1.1 .3 .7.15') 

我 们 现在 可 以 来 分 析 算 法 HH 中 的 堆 建 立 阶 段 , 即 在 步 又 H2 中 出 现 条 件 /= 1 
之 前 的 阶段 。 幸 而 ,可 以 把 对 堆 建 立 的 研究 归结 为 对 独立 的 筛选 操作 的 研究 ,这 是 
由 下 面 的 定理 导出 的 。 

定理 HH ”如果 把 算法 及 应 用 于 {1,2,…,N1 的 一 个 随机 排列 上 , 则 在 堆 建 立 阶 
段 ,N! /Ifslse Mn} 个 可 能 的 堆 中 ,每 一 个 都 具有 同样 的 可 能 性 。 而 且 在 这 个 阶 
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段 实施 的 | N/2 | 个 第 选 操作 的 每 一 个 ,在 下 列 意 义 下 是 一 致 的 , 即 当 达到 步骤 H8 
时 ,i 的 s 个 可 能 的 值 中 ,每 一 个 都 是 同等 可 能 的 。 

证 明 ”可 以 应 用 数值 分 析 家 们 也 许 称 之 为 “向 后 分 析 ” 的 方法 ,来 证 明定 理 日。 
给 定 以 7 为 根 的 筛选 操作 的 一 个 可 能 结果 天 …KN, 我 们 看 到 , 恰 有 这 个 文件 的 % 
个 以 前 的 配置 Ki… Kw ,将 筛选 出 此 结果 。 这 些 以 前 配置 的 每 一 个 都 有 不 同 的 开 ， 
值 ; 因 尼 向 后 看 去 , 恰 有 11,2,…, NN 的 sysy41…sn 个 输入 排列 ,在 位 置 / 的 筛选 完成 
之 后 ,它们 产生 配置 Ki… Kw。 

情况 1 = 1 是 典型 的 : 设 Ki… Kw 是 一 个 堆 ,K1… Kw 是 一 个 文件 , 当 1=1,K 
= K1 时 ,该 文件 通过 筛选 操作 变换 成 Ki… Kn。 如果 KK = K;, 则 必定 有 KK;= 
Kj;pj,K'iipj= KK;4j; 等 等 ,而 对 于 不 在 从 1 到 i 的 通路 上 的 所 有 j),K;= 二 K;。 友 
之 ,对 于 每 个 i, 这 个 构造 产生 一 个 文件 K1… Kw ,使 得 :(a) 往 选 操作 把 K1… Kw 变 
换 成 Kj.… Kn;(b) 对 于 2 志 [j/2]<j 三 NN ,Ki;ywJ 宇 K;。 因 此 , 恰 能 有 NN 个 这 样 的 文 
件 K1…Kw, 而 且 筛 选 操作 是 均匀 的 (这 个 定理 证 明 的 一 个 例子 见习 题 22)。 | 

参照 程序 H 的 分 析 中 的 量 A,B,C,D, 可 以 看 到 ,在 大 小 为 :的 一 株 子 树 上 的 
均匀 筛选 操作 ,对 A 的 平均 值 的 贡献 是 | s/2/s; 对 B 的 平均 值 的 贡献 是 


一 (0 +1+1+2+…+lLlgsj)= 一 ( >)Llgtj)= 


二 (Cs+1)Lgs]- 20 + 2) 


(见习 题 1.2.4-42) ;而 且 根 据 * 是 偶数 还 是 奇数 , 它 对 DD 的 平均 值 的 贡献 是 2/s 或 
0。 对 C 的 相应 的 贡献 更 难 确定 些 ,所 以 把 它 留 给 读者 (见习 题 26)。 对 于 所 有 短 选 
操作 进行 求 和 ,我 们 求 出 在 堆 建立 期 间 A 的 平均 值 是 


AN = > 人 Ls12J5s | se My| (17) 


对 于 B、C 和 总 ,类 似 的 公式 也 成 立 。 因 此 不 难 精 确 地 计算 这 些 平均 值 ;下 表 给 出 了 
典型 的 结 替 : 


N AN BN Cw Dy 
99 19.18 68.35 42.95 0.00 
100 19.93 09 .39 42.71 1 .84 
999 196.16 734.60 464.53 0.00 
1000 196.94 735.80 464.16 1.92 
9999 1966.02 7428.18 4695 .54 0.00 
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10000 1966 .82 7429 .39 4093 .00 1 .97 
10001 1966.45 7430.07 4695S .84 0.00 
10002 1967.15 7430.97 4695.95 1.73 


从 渐 近 的 意义 上 说 ,可 以 忽略 Mn 中 特殊 子 树 的 大 小 ,例如 可 以 求 出 


NO0O,N.l,DN.3.,... _ 
An= F114°318°7+'"+O(gN)= 


[1 -oN + O(log N) 


x = 5 = 1.60669 51524 15291 76378 33015 23190 92458 04805 - 


之 1 2 — 1 





(19) 
(这 个 值 已 由 J.W.Wrench,Jr. 用 习题 27 的 级 数 变 换 计算 出 来 。Paul Erd6s 已 经 证 
明 a 是 一 个 无 理 数 [J. Indian Math. Soc. 12(1948) ,63 一 66] ,以 及 Peter Borwein 已 
经 证 明 许 多 类 似 常数 的 无 理性 Proc. Camb. Phil. Soc. 112(1992) ,141 一 146]。 对 于 
很 大 的 N ,可 以 使 用 近似 公式 
AN 0.1967N + (— 1) ”>0.3 
BWws: 0.74403N - 1.3InN 
CN 0.47034N -0.8lnN (20) 
Dw (1.8 + 0.2)[N 偶 ] 
极 小 值 和 极 大 值 也 容易 确定 。 为 建立 这 个 堆 , 只 需要 O(N ) 步 (参见 习题 23)。 
这 个 理论 漂亮 地 说 明了 算法 日 的 堆 建 立 阶 段 。 但 选择 阶段 是 另 一 回 事 , 它 尚 
有 待 写 出 ! 当 对 NN 个 元 素 进行 堆 排 序 时 , A“, B”,C 和 D” 表示 在 选择 阶段 A,B,C 
和 DD 的 平均 值 。 对 于 随机 输入 ,算法 的 特性 受到 经 验 确定 的 下 列 平均 值 ,相对 小 
的 波动 的 文 配 
AN 0.152N 
BNNlgN-2.61N 
» 1 (21) 
CN 人 人 lgN-1.41 N 
DNAlgNt+t2 
但 是 对 于 DA 的 特性 或 对 于 猜测 的 常数 0.152、2.61 或 1.41, 都 还 未 找到 适当 的 理 
论 解释 。 然 而 ,BN 和 Cw 的 前 导 项 已 由 R.Schaffer 和 R.Sedgerwick 以 一 种 非常 好 
的 方式 确立 了 ;参见 习题 30。Schaffer 还 证 明了 CA 可 能 的 极 小 值 和 极 大 值 ,分 别 渐 


近 于 二 N lg N 和 地 NN lg N。 
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习题 


1.[10] 直接 选择 (算法 S) 是 一 个 稳定 的 排序 方法 吗 ? 

2.[15] 为 什么 在 算法 S 中 ,选择 最 大 的 键 码 , 然 后 次 最 大 的 键 码 ,等 等 ;而 不 是 首先 找 最 小 
的 ,然后 找 次 小 的 ,等 等 ,证 明 前 者 是 更 为 方便 的 。 

3.[M21] (a) 证明, 如 果 算 法 S 的 输入 是 11,2,… ,Ni 的 一 个 随机 排列 , 则 步骤 S2 和 S3 的 第 
一 次 迭代 产生 以 N 结尾 的 行 ,2,…,N - 11 的 一 个 随机 排列 ( 换 句 话说 ,在 Ki… Kn-1 中 11,2,…， 
N -11 的 每 一 个 排列 的 存在 都 是 同等 可 能 的 )。(b) 因 此 如 果 B、 表示 程序 S 中 量 B 的 平均 值 ,给 
定 随机 排列 的 输入 , 则 我 们 有 BN= Hw 一 1+ B、_1[ 提 示 : 参 见 等 式 1.2.10-(16)]。 

入 4.[M25] 当 ;=7 时 算法 S 的 步骤 S3 什么 也 不 做 ;在 进行 步骤 S3 之 前 测试 是 否 i=j 是 一 个 

好 想法 吗 ? 对 于 随机 输入 ,在 步骤 S3 中 条 件 i=j 出 现 的 平均 次 数 是 多 少 ? 

5.120] 当 输 入 是 N…3 2 1 时 ,在 程序 S 的 分 析 中 量 B 的 值 是 什么 ? 

6.[M29] (a) 设 a1as…an 是 11,2,…,NN| 的 一 个 排列 , 它 有 CC 个 循环 和 了 个 反 序 ,以 及 当 由 
程序 S 进行 排序 时 有 B 个 自 右 到 左 的 极 大 值 变 化 。 证 明 2B 三 J+ N 一 Cl 提示 :见习 题 5.2.2-1]。 
(b) 证 明 T+ N -CZLN?/2J, 因 此 B 决 不 能 超过 |L N*/4]。 

7.[M41 ] 假定 随机 输入 , 试 求 作 为 NN 的 一 个 函数 的 程序 S 中 量 B 的 方差 。 

>8.[24] 证 明 , 如 果 在 步 又 S2 中 查找 max(K1,…,K;) 时 , 按 自 左 到 右 的 次 序 Ki1,K,,…,K; 
来 考察 键 码 ,而 不 是 像 在 程序 S 中 那样 按 K;,…,K,,Ki 的 次 序 来 考察 , 则 通常 情况 下 ,有 可 能 减 
少 步骤 S2 的 下 一 次 迭代 所 需要 的 比较 次 数 。 试 根据 这 个 想法 , 写 出 一 个 MIX 程序 。 

9.[M25] 对 于 随机 输入 ,由 习题 8 的 算法 执行 比较 的 平均 次 数 是 多 少 ? 

10.[12] 在 原来 的 16 个 项 目 中 的 14 项 已 被 输出 之 后 ,图 23 中 树 的 配置 将 是 怎样 的 ? 

11.[10] 在 元 素 908 被 输出 之 后 ,图 24 的 树 的 配置 将 如 何 ? 

12.[M20 ] 当 使 用 图 23 的 “由 底 向 上 ”方法 把 2” 个 元 素 的 一 个 文件 排 成 有 序 时 , - ce 同 - co 
将 比较 多 少 次 ? 

13.[20] (J.W.J.Williams) 算法 H 的 步骤 HR4 区 分 jj<r=r 和 ) >zr3 种 情况 。 证 明 , 如 果 
K 宇 K,, 1, 则 将 有 可 能 简化 步骤 H4 ,从 而 只 需 做 一 个 两 路 分 支 。 问 应 怎样 修改 步骤 H2 ,才能 确保 
K 之 K,.; 1 的 条 件 贯 穿 于 堆 排 序 过 程 ? 

14.[10] 证 明 简 单 队 列 是 优先 队列 的 特殊 情况 (说 明 如 何 把 键 码 赋予 诸 元 素 ,使 得 最 大 者 先 
出 的 过 程 等 价 于 先进 先 出 )。 一 个 栈 也 是 优先 队列 的 一 种 特殊 情况 吗 ? 

15.[M22] (B.A.Chartres) 设计 一 个 高 速算 法 , 它 构 造 一 张 之 N 的 素数 的 表 ,并 利用 一 个 优 
先 队 列 来 避免 除法 操作 [提示 : 令 优 先 队 列 中 最 小 的 键 码 ,是 比 上 一 个 作为 素数 候选 者 的 奇数 要 
大 的 最 小 非 素 奇数 。 试 使 队 中 元 素 个 数 极 少 ]。 

16.[20] 设计 一 个 有 效 的 算法 , 它 把 一 个 新 的 键 码 插 入 到 ”个 元 素 的 一 个 给 定 的 堆 中 ,产生 
n+ 1 个 元 素 的 一 个 堆 。 

17.[20] 习题 16 的 算法 可 代替 算法 HH 中 “ 减 小 1 到 1” 的 方法 ,以 用 来 建立 堆 。 当 它们 以 相 
同 的 输入 文件 开始 时 ,这 两 个 方法 是 否 建立 相同 的 堆 ? 

P18.[211 (R.W.Floyd) 在 堆 排 序 的 选择 阶段 , 键 码 K 势必 是 十 分 小 的 ,所 以 步骤 H6 中 几乎 
所 有 的 比较 都 发 现 KK< kK。 说 明 如 何 修改 这 个 算法 ,使 得 在 计算 的 主 循环 中 K 不 同 K, 进行 比 
较 , 从 而 把 比较 的 平均 次 数 判 减 一 半 。 

19.[21] 试 设计 一 个 算法 , 它 删 去 长 度 为 N 的 堆 中 一 个 给 定 的 元 素 , 产 生长 度 为 N 一 1 的 一 
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个 堆 。 
20.[M20] 证 明 (14) 给 出 一 个 堆 中 的 特殊 子 树 的 大 小 。 
21.[M24 ] 证 明 (15) 给 出 一 个 堆 中 的 非特 殊 子 树 的 大 小 。 
> 22.[20] 在 算法 H 的 堆 建 立 阶段 ,11,2,3,4,5} 的 什么 排列 变换 成 53412? 

23.[M28 ] (a) 证 明 在 一 个 筛选 算法 中 扫描 的 长 度 B 决 不 超过 | lg(r/1)]。(b) 根 据 (8), 在 算 
法 H 的 任何 具体 应 用 中 ,B 决 不 能 超过 NLIgNj。 在 所 有 可 能 的 输入 文件 中 , 试 求 B 作为 NN 的 一 
个 函数 的 极 大 值 (你 必须 证 明 ,存在 一 个 输入 文件 ,使 B 取 到 这 个 极 大 值 )。 

24.[M24 ] 推导 出 BN( 算 法 H 的 堆 建 立 阶 段 的 扫描 总 长 度 ) 的 标准 差 的 精确 公式 。 

25.[M20] 当 !/=1 和 >=N 时 ,如 果 六 =22+1-1, 则 在 筛选 扫描 期 间 对 C 贡献 的 平均 值 是 
多 少 ? 

26.[M30] 求解 习题 25,(a) 对 于 N=26,(b) 对 于 一 般 的 NN。 

27.[M25 ] (人 本 .Clausen,1828) 证 明 

zx" 1+2z ,2 
DT 

( 置 x =1/2 即 得 一 个 用 于 计算 (19) 的 非常 快速 地 收敛 的 级 数 )。 

28.[35] 以 完备 的 三 叉 树 而 不 是 二 叉 树 为 基础 ,来 剖析 三 又 堆 的 思想 。 三 又 堆 排 序 比 二 又 堆 
更 快 吗 ? 

29.[26 ] W.S.Brown 设计 一 个 用 于 多 项 式 或 寡 级 数 的 乘法 (ailzat+az2+…)(bz 十 
b2x2 +…) 的 算法 ,其 中 ,答案 cizo+… 的 系数 按照 输入 系数 相 乘 的 次 序 来 生成 [提示 :使 用 一 
个 适当 的 优先 队列 ] 。 

>30.[HM35] (R.Schaffer 和 R.Sedgewick) 设 ,是 元 素 11,2,…,n1 的 堆 的 个 数 ,对 于 它们 
来 说 , 堆 排序 的 选择 阶段 恰 好 进行 mm 次 的 增进 。 试 证 明 ,三 2”II7-2lg 有 ,并 县 使 用 这 个 关系 来 
证 明 ,由 算法 H 所 实施 的 增进 的 平均 次 数 是 N lg N+ O(N log log N)。 

31.[37] (J.W.J.Williams) 试 证明, 如果 把 两 个 堆 以 适当 方式 “ 背 对 背 " 地 放 在 一 起 , 则 有 可 
能 维持 这 样 一 种 结构 ,其 中 ,在 任何 时 刻 都 能 在 O(logN ) 步 之 内 删除 最 小 的 或 者 最 大 的 元 素 ( 这 
样 一 个 结构 可 以 叫做 一 个 优先 双 队 )。 


32.[M28 ] 如 果 被 排序 的 键 码 都 不 同 , 试 证 明 , 堆 排序 的 增进 的 个 数 B, 总 是 至 少 为 地 NlgN 


+ O(N)。 提 示 : 考 虑 最 大 的 [ N/2 | 个 键 码 的 移动 。 

33.[21] 设计 一 个 算法 , 它 把 表示 为 左倾 树 的 两 个 不 相交 的 优先 队列 合并 成 一 个 。( 特 别 是 ， 
如 果 给 定 的 两 队 之 一 只 包含 单个 元 素 , 则 你 的 算法 将 把 它 插 入 到 男 一 个 队 中 )。 

34.[M41 ] 如 果 和 忽略 KEY 的 值 ,有 多 少 种 可 能 的 N 个 结 点 的 左倾 树 ? 这 个 序列 以 1,1.2,4， 
8,17,38,87,203,482,1160,-… 开 始 ;使 用 类 似 于 2.3.4.4-4 的 技术 , 试 证 明 ,对 于 适当 的 常数 a 和 
b ,这 个 数 渐 近 地 是 abNN -2。 

35.[26] 如 果 UP 链接 被 加 到 一 个 左倾 树 上 (参见 6.2.3 小 节 中 三 重 链接 树 的 讨论 ), 则 有 可 
能 从 优先 队列 内 删 去 任何 节点 PP 如 下 :用 合并 后 的 LEFT(P) 和 RIGHT(P) 代 替 P; 然 后 调整 P 诸 
祖先 的 DIST 场 ,可 能 会 交换 左 和 右 子 树 ,直到 达到 根 或 者 达到 一 个 其 DIST 场 未 被 改变 的 节点 为 
止 。 

试 证 明 :如果 在 这 株 树 中 有 NN 个 节点 ,即使 这 株 树 可 以 包含 非常 长 的 向 上 通路 ,这 个 过 程 也 
不 会 要 求 改变 多 于 O(logNN) 个 DIST 场 。 

36.[18] (最 近 最 少 使 用 的 页 的 替换 ) 许多 操作 系统 都 使 用 下 列 类 型 的 算法 :对 一 个 节 氮 集 
合 施加 两 个 操作 ,(i)“ 使 用 "一 个 节点 ,(i) 用 一 个 新 节点 蔡 换 最 近 最 少 使 用 的 节点 。 试 问 什么 样 
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的 数据 结构 有 利于 确认 最 近 最 少 使 用 的 节点 ? 

37.[HM32] 令 ew(E) 是 在 有 N 个 元 素 的 一 个 随机 堆 中 ,从 根 到 第 & 个 最 大 元 素 的 预期 的 树 
式 的 距离 ,并 令 e(k)=limN.wen( 上 )。 于 是 e(1)=0,e(2)=1,e(3)=1.5 和 e(4)=1.875。 试 求 
e(&) 的 渐 近 值 到 O(k-!') 的 范围 内 。 

38.[M21 」 试 求 在 具有 NN 个 内 部 节点 的 堆 或 一 个 完全 二 叉 树 内 ,对 于 子 树 大 小 的 多 重 集合 
MAN 的 一 个 简单 递 推 关系 。 


5.2.4 通过 合并 进行 排序 


合并 (或 者 整理 ) 意 味 着 把 两 个 或 多 个 有 序 文件 组 成 一 个 单一 的 有 序 文件 。 例 
如 ,我 们 可 以 合并 两 个 文件 503 703 765 和 087 512 677 ,得 到 087 503 512 677 703 
765。 实 现 此 合并 的 一 个 简单 方法 是 比较 两 个 最 小 的 项 目 ,输出 最 小 的 ,而 后 重复 同 
一 过 程 。 以 | 
503 703 765 


087 512 677 
开始 ,我 们 得 到 


503 703 765 


7| 
0 312 677 


然后 
703 765 


7 5 
937 0 312 677 


接着 

703 765 

677 

等 等 。 当 两 个 文件 之 一 被 取 尽 时 ,需要 稍 注意 些 。 在 下 列 算法 中 有 这 一 过 程 的 详细 
描述 。 


087 503 512| 





M4. 传送 V7 了 2ynr M6. 传 送 Zi,... Zm 


图 29 合并 二 …zn 和 yi 全 … 达 y， 


算法 M( 两 路 合并 ) 本 算法 把 有 序 文件 XI1X; 和 yl 二 yy 奈 过 vy 
合并 成 一 个 单一 文件 zj 三 z, 声 … 志 z, 4,。 
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M1.[ 初 始 化 ] 置 i<—1,j<-1,k 一 1。 

M2 .| 找 较 小 者 ] 如 果 xz; 三 y;, 则 转 到 步 又 M3, 否则 转 到 M5。 

M3.[ 输 出 x;] 置 zj 一 xz,,k<k+1,i<-i+1。 如 果 i 过 mm , 则 返回 M2。 
M4.[ 传 送 y;,…,y,]」 置 (zzm+4n) 一 (y;，,"…,y,) 并 终止 此 算法 。 
M5.[ 输 出 y] 置 zj 一 yj ,< 一 kk+1,j 一 j 二 1。 如 果 j 志 nn, 则 返回 M2。 
M6.[ 传 送 zx;,… ,zx]」 置 ( 罗 和 ,zw 一 (zzn) 并 终止 此 算法 。 | 


我 们 将 在 5.3.2 小 市 看 到 , 当 m 守 nn 时 ,这 个 直截了当 的 过 程 ,实质 上 是 在 一 台 
通常 的 计算 机 上 进行 合并 的 “最 好 ”方法 (而 当 mx 比 n 小 得 多 时 , 却 有 可 能 设计 一 个 
更 有 效 的 合并 算法 ,尽管 一 般 说 来 它们 是 比较 复杂 的 )。 通 过 在 输入 文件 的 末端 设 
置 人 工 的 “哨兵 ”元素 zw+i=ywru=oco, 就 可 以 在 不 降低 很 多 效率 的 前 提 下 使 算法 
M 稍 简单 些 ,使 其 恰恰 在 输出 ce 之 前 停止 。 关 于 算法 M 的 分 析 ,见习 题 2。 

算法 M 的 总 工作 量 实 质 上 与 加 +72 成 比例 ,所 以 显然 , 比 起 排序 来 ,合并 是 较 
为 简单 的 问题 。 而 且 ,我 们 可 以 把 排序 问题 归结 为 合并 ,因为 有 可 能 重复 地 合并 越 
来 越 长 的 子 文件 直到 一 切 都 是 有 序 的 为 止 。 可 以 把 这 当 作 排序 思想 的 一 个 推广 :把 
一 个 新 元 紊 插 入 到 一 个 有 序 的 文件 是 合并 的 特殊 情况 mn = 1。 如 果 要 加 速 这 个 插入 
过 程 , 则 可 以 考虑 一 次 插入 若干 个 元 素 ,“ 成 批 " 处 理 它们 ,而 这 自然 地 导致 合并 排序 
的 一 般 思想 。 从 历史 上 看 ,合并 排序 是 用 于 计算 机 排序 早期 的 方法 之 一 ; 它 早 在 
1945 年 就 由 约翰 : 冯 : 诺 依 曼 提 出 来 了 ( 见 5.5 节 )。 

我 们 将 在 5.4 节 颇 为 详细 地 研究 合并 的 问题 ,并 考虑 外 部 排序 算法 ;本 节 , 只 专 
注 于 在 一 个 高 速 随机 存 取 存储 器 内 的 合并 排序 问题 。 

表 1 说 明了 一 种 合并 排序 , 它 类 似 于 在 快速 排序 、 基 数 交 换 等 方法 中 使 用 过 的 
扫 摘 过 程 的 形式 “两 头 点 螨 ” :同时 从 左边 和 右边 考察 输入 数据 ,并 向 中 间 靠 拢 。 现 
在 暂时 忽略 这 个 表 的 项 上 那 行 ,而 考虑 从 行 2 到 行 3 的 变换 。 在 左边 ,有 递增 的 路 
段 503 703 765; 在 右边 向 左 读 , 有 路 段 087 512 677。 合 并 这 两 个 序列 得 到 087 503 
512 677 703 765 , 它 被 放置 在 行 3 的 左边 。 然 后 行 2 中 的 键 码 061 612 908 同 170 
509 897 合并 ,结果 (061 170 509 612 897 908) 被 记录 到 行 3 的 右 端 。 最 后 ,154 275 
426 653 同 653 合并 一 一 在 重 伙 为 害 之 前 就 发 现 它 一 一 并 把 这 个 结果 放 到 左边 , 紧 
跟着 前 边 的 路 段 。 本 表 的 行 2 以 同样 方式 由 行 1 的 原始 输入 数据 形成 。 

表 1 目 然 的 两 路 合并 排序 


503| 087 542| 06! 908| 170 897| 275 |653| 426 154 |509 |612 1677 |765 703 
一 
765| 061 612 908| 


3| |897 509 170 |677 612 087 


134 275 426 |65 
677 703 765| 154 275 426 | 653 | 908 897 612 509 170 061 
?12 612 677 703 765 897 |908| 653 426 275 154 
503 509 512 612 653 677 703 765 897 | 908 


表 1 中 垂直 的 线 表 示 路 段 之 间 的 边界 。 这 些 垂 线 都 是 所 谓 的 “下 坡 线 ”, 即 它们 
“了 1352 ， 
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前 边 的 元 素 大 于 后 边 的 元 素 。 在 这 个 文件 的 中 间 , 当 我 们 从 两 个 方向 读 到 同一 个 键 
码 时 ,一般 来 说 ,要 出 现 一 个 含混 的 状态 ;但 如 果 像 在 下 列 算法 中 那样 稍 加 注意 ,就 
不 致 于 有 问题 。 由 于 这 个 方法 利用 了 它 的 输入 中 自然 出 现 的 “路 段 ”, 改 习惯 上 称 为 
“自然 的 "合并 。 


算法 N( 自 然 的 两 路 合并 排序 ) ”使 用 两 个 存储 区 域 ,对 记录 R1,…, RN 排序 ， 
每 个 存储 区 域 都 能 容纳 N 个 记录 。 为 了 方便 起 见 ,我 们 假定 ,第 二 个 区 域 的 记录 是 


RN+ri1,* 


,Ron ,尽管 Rw j 1 并 不 必 与 RN 相 邻 。 RN+1, , 尺 ,w 的 初始 内 容 是 无 所 请 


的 。 在 完成 排序 之 后 , 键 码 将 是 有 序 的 :K| 二 … 硅 Ky。 


i#¥j, Ki<Kk; Ki>K; 





合 
N12. 转 换 方向 排序 
完成 


图 30 合并 排序 


. [初始 化 ] 置 ;一 0( 当 s =0 时 ,我 们 把 记录 从 (Ri1,…, Ry) 区 域 传送 到 


(RN ,RoN) 区 域 ; 当 s=1 时 ,以 相反 方 同 进行 )。 


. [准备 进行 扫描 ] 如 果 s =0, 则 置 i 一 1,7j 一 N,k< 一 N+1,l1< 一 2NN; 如 果 s= 


1, 则 置 i<_-N +1,j< 一 2N,k<1,1<-N( 变 量 i,j,k,7 指向 正在 读 的 “ 源 文 
件 ”" 和 正在 写 的 “目标 文件 ”的 当前 位 置 )。 置 4 一 1,j 一 1( 变 量 4 给 出 输出 
的 当前 方向 ;如 果 将 来 还 要 进行 扫描 , 则 置 f 为 0)。 


. [比较 K;: K;]」 如 果 > K;, 则 转 到 步骤 N8。 如 果 i=j, 则 置 Re 一 Ri 并 


转 到 N13。 


.[ 传 送 R,] (步骤 N4 一 N7 类 似 于 算法 M 的 步 又 M3 一 M4) 置 Re 一 ,一 


.[ 下 坡 ?] i 加 1。 然后 如 果 K;_ 1 三 K;, 则 返回 到 步 又 N3。 
.[ 传 送 R;] 置 Ri 一 R;,k<k+d。 
.[ 下 坡 ?] 7 减 1。 然 后 如 果 K;; 1 三 K;, 则 返回 步骤 N6; 否 则 转 到 步骤 N12。 
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N8.[ 传 送 R;] (步骤 N8 一 N11 对 偶 于 步骤 N4~N7) 置 Ri<R,k<kt+d。 

N9.[ 下 坡 ?] 7 减 1。 然 后 如 果 K;; 1 三 K;, 则 返回 到 步骤 N3。 

N10.[ 传 送 R,] 置 RR,,k<kt+d。 

N11.[ 下 坡 ?] i 增加 1。 然后 如 果 K;_ | 三 K,;, 则 返回 到 步骤 N10。 

N12.[ 转换 方向 ] 置 f<-0,d 一 一 4d ,并 交换 &/。 返 回 到 步骤 N3。 

N13.[ 换 区 域 ] 如 果 A=0, 则 置 s<1-s, 并 返回 步骤 N2。 否 则 排序 完成 ;如 果 
5=0, 则 置 (R RN)< 一 (RN R2N)( 如 果 把 (RNv RN) 作为 输出 是 可 
接受 的 , 则 不 必 执 行 后 面 的 拷贝 操作 )。 | 

这 个 算法 包含 一 个 巧妙 的 特性 ,将 在 习题 5 中 说 明 它 。 

虽然 编写 算法 N 的 MIX 程序 并 不 困难 ,但 是 我 们 无 须 构 造 整个 程序 ,就 可 以 推 
导 其 特性 的 基本 事实 。 在 随机 条 件 下 ,输入 中 的 递增 路 段 数 大 约 是 方 N, 因 为 K;> 


Ki+i 的 概率 是 ;在 稍微 不 同 的 假设 下 ,关于 路 段 数 的 详细 信息 已 经 在 5.1.3 小 节 
中 导出 。 每 次 扫描 减少 一 半 的 路 段 数 (对 于 像 习 题 6 那样 的 不 寻常 情况 除外 )。 所 
以 扫描 数 通 常 将 大 约 是 le 了 N=lgN - 1。 每 次 扫描 都 需要 传送 全 部 N 个 记录 ,而 


且 由 习题 2, 大 部 分 时 间 都 花费 在 步骤 N3、N4、N5、N8、N9 上 。 如 果 假 定 键 码 相等 
的 概率 很 低 ,我 们 可 以 估算 内 部 循环 的 时 间 如 下 


步 又 操 作 时 间 
N3 CMPA ,JG, JE 3.5u 
N4 STA, INC 3u 
或 者 NS INC, LDA,CMPA, JGE 6u 
或 N8 STX, INC 3 
N9 DEC, LDX, CMPX , JGE 6u 





于 是 在 每 次 扫描 中 对 于 每 个 记录 大 约 花 费 12.5w ,在 平常 情况 和 最 坏 情况 下 ， 
总 共 的 运行 时 间 都 渐 近 于 12.5N lg N。 这 比 快 速 排 序 的 平均 时 间 慢 些 ,而 就 其 花 
费 两 倍 多 的 存储 空间 来 说 ,不 应 认为 它 比 堆 排序 好 ,因为 程序 5.2.3H 的 渐 近 运行 
时 间 决 不 会 多 于 18NlgN。 

在 算法 N 中 ,完全 通过 "下 坡 " 来 确定 路 段 之 间 的 边界 线 。 这 可 能 是 优点 , 即 : 
一 个 主要 是 递增 或 主要 是 递减 次 序 的 输入 文件 可 以 非常 快 地 被 处 理 。 但 它 减 慢 了 
主 循环 的 计算 。 代 替 判 断 下 坡 ,也 可 人 为 地 确定 路 段 的 长 度 , 例 如 在 输入 中 所 有 路 
段 的 长 度 都 是 1 ,在 第 一 次 扫描 之 后 (最 后 的 路 段 可 能 除外 ) 所 有 路 段 的 长 度 都 是 2， 
… ,在 次 扫描 之 后 所 有 路 段 ( 可 能 除开 最 后 的 路 段 ) 的 长 度 都 是 2:。 相 对 于 算法 N 
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中 的 “自然 合并 而 言 , 称 此 方法 为 直接 两 路 合并 。 
直接 两 路 合并 非常 类 似 于 算法 N ,而 且 它 实质 上 有 同样 的 流程 图 ;但 区 别 还 是 
不 小 的 ,因而 最 好 再 次 与 出 整个 算法 。 


算法 S( 直 接 两 路 合并 排序 ) 如 同 算法 N 中 一 样 ,使 用 两 个 存储 区 域 对 记录 
Rl1,'*, KN 排序 。 


Sl1. 


S2. 


S3. 
S4. 
SS. 
S6. 
S7 . 


S8 . 
S9 . 


[初始 化 ] 置 *<0,5<1( 关 于 变量 ,ij d 的 意义 见 算法 N。 这 里 
p 表示 在 当前 的 扫描 中 有 待 合并 的 递增 路 段 的 大 小 ;g 和 vr 记 住 在 一 个 路 
段 中 未 合并 的 项 目 数 )。 

[准备 进行 扫描 ] 如 果 =0, 则 置 i< 一 1,j< 一 N,k< 一 NN,1<-2N+1; 如 果 ;= 
1, 则 和 置 i 一 N+1,j 一 2N,k<0,1< 一 N+1。 然 后 置 4<1,g< 一 p,r<po 
[比较 K;: K;] 如 果 K;> K;, 则 转 到 步骤 S8。 

[传送 R;] 置 &<k+d，,R,<R;。 

[路 段 结束 ?] 置 i 一 i+1,g< 一 9g 一 1。 如 果 g >0, 则 转 回 到 步骤 S3。 

[传送 R;] 置 < 一 + d。 然 后 如 果 率 = 7, 则 转 到 步骤 S13; 否则 置 Re 一 Ri。 
[路 段 结束 ?] 置 j 一 j 一 1,r = 二 r+ 一 1。 如 果 xr >>0, 则 转 回 到 步 又 S6; 否 则 转 
向 S12 。 

[传送 R;] 置 有 +d ,RS Ri。 

[路 段 结束 ?] 置 j 一 ;一 1,r 一 r 一 1。 如 果 rr >0, 则 转 回 步骤 S3。 


S10. [传送 R,] 置 &A<R+dzd。 然 后 如 果 &= 7, 则 转 到 步骤 S13; 人 否则 置 R, 一 


Ro 


S11.[ 路 段 结束 ?] 置 i<i+1,g<g 1。 如果 go>0, 则 转 回 到 步骤 S10。 
S12. [转换 方向 ] 置 g< 一 p,r 一 p,d 一 一 4d, 并 交换 有 1。 如 果 j 一 i<p, 则 返 


回 步 又 S10; 否 则 返回 到 步骤 S3。 


S13. [ 换 区 域 ] 置 p 一 p+ p。 如 果 p<N,; 则 置 ;一 1 一;, 并 返回 到 S2。 否 则 


排序 完成 ;如 果 =0, 则 置 
(RI 9 , RN) < (RN 》 , RoN) 


( 当 且 仅 当 [lgN | 是 奇数 或 N =1 的 平凡 情况 时 , 才 执行 后 面 的 拷贝 操作 ,而 不 
管 输入 的 分 布 如 何 。 因 此 ,有 可 能 事先 预测 排序 输出 的 位 置 ,从 而 避免 找 册 )。 | 


作为 本 算法 的 下 例 , 见 表 2。 稍微 使 人 惊奇 的 是 , 当 NN 不 是 2 的 一 个 乘 方 时 ,这 个 
方法 工作 得 很 好 ;正在 合并 的 路 段 不 全 都 是 长 度 为 2 的 ,对 于 这 些 例外 情况 却 还 无 明 
文 规定 (见习 题 8)! 以 前 的 下 坡 判断 已 经 被 g 或 r 的 减 值 运算 、 以 及 结果 是 否 为 0 的 
判断 所 代替 ;这 把 MIX 的 渐 近 运行 时 间 减 少 到 11N lg N 单位 , 比 起 我 们 由 算法 NN 所 
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表 2 直接 两 路 合并 排序 




















512 | 061 | 908 | 170 | 897 | 653 | 426 | 154 | 509 | 612 | 677 | 765 | 703 
503 703 | 512 677 | 509 908 | 426 897 | 653 275|170 154|612 061 |765 087 
087 503 703 765 | 154 170 509 908 | 897 653 426 275|1677 612 512 061 
061 087 503 512 612 677 703 765 | 908 897 653 509 426 275 170 154 
061 087 154 179 275 426 503 509 512 612 653 677 703 765 897 908 


能 达到 的 稍微 快 些 。 

实际 上 ,把 算法 S 同 直接 插入 结合 起 来 是 值得 的 ;我 们 可 以 利用 直接 插入 ,代替 
算法 S 的 前 4 趟 扫描 ,来 对 16 个 项 目的 小 组 排序 ,从 而 避免 短 的 合并 造成 的 相当 浪 
费 的 簿 记 操作 。 如 在 快速 排序 情况 下 所 看 到 的 ,这 种 多 个 方法 的 结合 并 不 影响 渐 近 
的 运行 时 间 ,但 它 仍然 不 失 为 相当 大 的 改进 。 

现在 从 数据 结构 的 观点 来 研究 算法 N 和 S。 为 什么 需要 2N 个 记录 单元 而 不 
是 NN 个 呢 ? 原因 比较 简单 :我们 处 理 的 是 可 变 大 小 的 4 个 表 ( 对 于 每 次 扫描 要 两 个 
“ 源 “ 表 和 两 个 “目标 ”" 表 ) ;而 对 于 每 一 对 顺序 地 分 配 的 表 ,我 们 使 用 的 是 2.2.2 小 节 
中 所 讨论 的 标准 的 “一 起 生长 "的 思想 。 但 是 存储 空间 的 一 半 总 是 没有 用 上 , 稍 做 考 
虑 就 可 看 出 ,实际 上 应 该 对 这 4 个 表 都 使 用 链接 分 配 。 如 果 对 N 个 记录 的 每 一 个 
都 加 上 一 个 链接 字段 ,利用 简单 的 链接 操作 而 全 然 不 必 移 动 记 录 ,就 可 以 做 到 合并 
算法 所 需要 的 每 一 件 事 ! 加 N 个 链接 字段 ,一 般 来 说 比 加 另外 N 个 记录 所 需要 的 
空间 要 好 , 而 且 减 少 记 录 的 移动 也 节约 时 间 。 因 此 ,我们 应 当 考 虑 下 述 的 合并 算法 。 

算法 L( 表 合并 排序 ) 假定 记录 Rl,…, Rw 包含 键 码 Kj,…, Kw ,而 且 和 链接 字 
段 Li,… ,Ln 能 容纳 数 一 (N +1) 到 (N + 1)。 在 文件 的 开始 和 结尾 的 人 为 记录 Ro 
和 RN+1 中 ,有 两 个 辅助 的 链接 字段 Lo 和 Lyw+1。 本 算法 是 一 个 “ 表 排 序 ”, 它 设置 
链接 字段 ,使 得 诸 记 录 以 递增 次 序 被 链接 在 一 起 。 在 排序 完成 之 后 ,Lo 是 具有 最 小 
键 码 记录 的 下 标 ; 而 且 对 于 1 三 k 志 NN ,Li 是 R, 后 面 的 记录 下 标 , 如果 R， 是 具有 最 
大 键 码 的 记录 , 则 Le =0( 见 等 式 5.2.1-(13))。 

在 本 算法 的 过 程 中 ,Ro 和 R,; ,1 作为 其 子 表 正 被 合并 的 两 个 线性 表 的 “ 表 头 ”。 
一 个 负 的 链接 表示 被 排 好 序 的 一 个 子 表 的 结尾 ;一 个 零 链 接 表 示 整 个 表 的 结尾 。 假 
N22 

式 “|L,| 一 p” 指 的 是 “把 工 , 置 成 p 或 -pp, 但 要 保留 L, 以 前 的 符号 ”。 这 个 操 
作 很 适合 于 MIX, 但 可 惜 并 不 适合 于 大 多 数 计算 机 ;我 们 可 以 直截了当 地 修改 这 个 算 
法 ,以 得 到 一 个 对 于 大 多 数 机 器 都 同样 有 效 的 方法 。 

L1. [准备 两 个 表 ] 置 志 <e1,LNvii<2, 对 于 1 委 ; 委 N-2 置 也 二-(+2), 并 

置 LN_ ieLN<e0( 我 们 已 经 分 别 建立 了 包含 Ri, R3, R;,… 及 R,, Ra， 
， 156 ， 
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Re… 的 两 个 表 ; 负 的 链接 指出 每 个 有 序 的 “ 子 表 " 仪 由 一 个 元 素 组 成 。 利 用 在 
初始 数据 中 可 能 出 现 的 次 序 ,可 以 用 另 一 种 方法 执行 这 一 步 , 见 习题 12)。 

L2. [开始 新 的 扫描 ] 置 ;一 0,: 一 N+1,p 一 上 L,,9 一 L,。 如 果 g =0, 则 本 算法 
终止 (在 每 次 扫描 期 间 ,p 和 g 都 遍历 正 被 合并 的 表 ;s 通常 指向 当前 子 表 
的 最 近 被 处 理 的 记录 ,而 t 指向 上 一 次 输出 的 子 表 的 结尾 )。 

L3.[ 比 较 K,:K,] 如果 ,> K,, 则 转 L6。 

L4.[ 推 进 p] 置 |L,| 一 p,s 一 pp 一 L,。 如 果 p>0, 则 返回 L3。 

LS. [完成 子 表 ] 置 L,< 一 g,s< 一 1。 然后 置 :<g 有 日 gL, ,一 次 或 多 次 ,直到 g 
0 为 止 。 最 后 转 问 L8。 

L6. [推进 gj] (步骤 L6 和 L7 对 偶 于 L4 和 L5) 置 |L,|< 一 gq,s 一 gq,q<L，。 如 
果 >0, 则 返回 L3。 

L7. [完成 子 表 ] 置 L, 一 p,s 一 t。 然 后 置 :一 p 和 pL, ,一 次 或 多 次 ,直到 p 
0 为 止 。 

L8. [扫描 结束 ?] (这 时 ,2 委 0 和 g 声 0, 因为 两 个 指针 都 分 别 移动 到 它们 子 表 
的 结尾 ) 置 p 一 一 p,g 一 一 g。 如 果 g=0, 则 置 |L,| 一 p,|L,| 一 0 并 返回 
步骤 L2。 否 则 返回 L3。 | 


执行 这 个 算法 的 一 个 例子 见 表 3, 其 中 我 们 可 以 看 到 每 次 遇 到 步骤 L2 时 的 链接 
情况 。 使 用 习题 5.2-12 的 方法 , 即 可 在 这 个 算法 的 结尾 处 重新 安排 记录 Ri,*…, Rw， 
以 使 它们 的 键 码 有 序 。 在 表 合 并 和 稀 琉 多 项 式 的 加 法 ( 见 算法 2.2.4A) 之 间 , 有 看 有 
趣 的 类 似 性 。 


表 3 表 合 并 排序 












0 

一 $03 087 S512 061 908 170 897 275 653 426 154 509 612 677 765 
1 区 0 
2 -6 1 8 .3 AO “lL ,9 12 -16 14 0 0 

4 2 二 3 8 3 7 0 12 10 9 14 16 0 
4 3 6 7 2 0 8 3 1 14 12 10 13 9 16 0 
4 2 7 


0 8 3 10 14 1 6 3 9 16 
现在 来 构造 算法 L 的 一 个 MIX 程序 ,从 速度 的 观点 以 及 空间 的 观点 看 , 表 操 作 
是 否 有 利 。 
程序 L( 表 合并 排序 ) ”为 方便 起 见 ,假定 记录 都 是 一 个 字 长 的 , 且 五 在 单元 
INPUT 二 7 的 (0:2) 字 有 段 中 ,KK; 在 (3:5) 字 上 段 中 ;rll 三 p, rl2 寺 gqg, rl13 夺 ss, rl4 寺 1, rA 
RN 2 


be 





ee 
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01 LD 
02 ABSL 


03 KEY 
04 START 
05 

06 

07 

08 

09 ENTA 
10 

ll ENTA 
12 

13 

14 

15 

16 L300 
17 L3P 
18 

19 LL4 
20 

21 

22 

23 L5 
24 

25 

26 

27 

28 

29 L6 
30 

31 

32 

33 LL7 


0:2 


INPUT(L) 


INPUT+ N+ 1(L) 
INPUT+ N- 1(L) 


INPUT + N(L) 
L2 

INPUT ,2 
INPUT, 1 (KEY) 
L6 
INPUT, 3( ABSL) 
0,1 

INPUT, 1(L) 
L3P 

INPUT, 3(L) 
0,4 

0,2 


INPUT, 3(ABSL) 
0,2 

INPUT ,2(L) 
D30 
INPUT,3(L) 


Q 


‘+B 


HOUUnmmAaNnaoano 


HQ 





字段 名 的 定义 


L1. 准备 两 个 表 
L.<——(i+2) 
N-2 宇 1>0 
Lo<1 


Ln+1<2 
Ln-1<0 
Ln<0 

转 L2 

L3. 比 枕 KK。 


如 果 K, < 天 。 则 转 工 6 
L4. 推进 p。|L,| 一 p 
S< 

六 < 工 

如 果 p>0 则 转 L3 
L5. 完成 子 表 。L,<g 


SA 


如 果 g >0 则 重复 
转 L8 
L6. 推进 gq。|L,|<g 


如 果 og >0 则 转 L3 
L7. 完 成 子 表 。L. 一 p 
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34 ENT3 0 ,4 B” st 

35 ENT4 0 ,1 D” t<—p 

36 LD1 INPUT,1(L) D” pL, 

37 J1P x 一 2 D” 如 果 p>0 则 重复 

38 L8 ENN1 0,1 B L8. 扩散 完成 ? p< 一 p 
39 ENN2 0,2 B 9q< 一 9 

40 J2NZ L30 B 如 果 gq 关 0 则 转 上 3 

41 ST1 INPUT, 3( ABSL) A IL,|<—p 

42 STZ, INPUT, 4( ABSL) A IL,|<—0 

43 12 ENT3 0 A+l 中. 开始 新 的 扫 抽 。s<0 
44 ENT4 N+1 A+1 tN+1 

45 LD1 INPUT(L) A+tl pL, 

46 LD2 INPUT + N+ 1(L) A+l d< 了， 

47 J2NZ L30 A+l 如 果 g 关 0 则 转 L3 | 


利用 在 这 以 前 已 见 过 多 次 的 技术 (见习 题 13 和 14), 就 可 以 推导 这 个 程序 的 运 
行 时 间 ;平均 说 来 , 它 近似 于 (10NlgN + 4.92N)w, 并 具有 阶 为 VN 的 很 小 的 标准 
差 。 习 题 15 说 明 ,以 较 长 的 程序 为 代价 ,运行 时 间 还 可 以 少 到 大 约 9NlgN。 

因此 ,在 进行 内 部 合并 时 ,链接 存储 技术 显然 胜 过 顺序 分 配 : 只 需要 较 小 的 存储 
空间 , 而 程序 运行 要 快 大 约 10% 一 20%。L.J.Woodrum[IBM Systems J. ,8(1969)， 
189 一 203] 和 A.D.Woodall[Comp.J.,13(1970),110 一 111] 已 经 发 表 了 类 似 的 算 
法 。 


习题 


1.[21j 把 算法 M 推广 到 输入 文件 Ti1 信 … 信 xiw 的 一 个 路 合并 ,其 中 1 二 之。 


2.[M24] 假定 在 n 个 y 之 中 插入 4 个 的 { 7 ) 种 安排 ,每 一 种 都 是 同等 可 能 的 , 试 求 


算法 M 中 步骤 M2 被 执行 次 数 的 平均 值 和 标准 差 。 问 这 个 量 的 极 大 值 和 极 小 值 是 多 少 ? 
3.[20]( 更 新 ) 给 定 记 录 Ri1,… ,Rm 和 Ri1,…,Rw, 它 们 的 键 码 是 不 同 的 和 有 序 的 ,就 是 说 
Ki<<…< Kx 和 Ki<…<K%N, 如 果 我 们 要 求 : 当 第 一 个 文件 的 记录 R; 的 键 码 也 出 现 于 第 二 个 
文件 中 时 , 则 抛弃 R;, 试 说 明 如 何 修改 算法 M 以 得 到 一 个 合并 的 文件 。 
4.[21] 正文 中 己 经 注意 到 ,合并 排序 可 以 认为 是 插入 排序 的 一 个 推广 , 试 说 明 合并 排序 如 同 
图 23 中 所 指出 的 那样 ,也 同 树 选择 排序 密切 相关 。 
5.[21」 证 明 在 步骤 N6 或 N10 中 ,i 决 不 会 等 于 j( 因 此 在 这 些 步骤 中 不 必 判 断 是 否 应 转 问 
N13)。 
6.[122] 求 {11,2,…,16| 的 一 个 排列 KK|,K,,… ,Kis, 使 得 


159 ， 


第 $5 章 排序 





民 > Ks3, Ky > Ks, Ke > Ks, Ke > Ko, Kio < Kyu, Ky < Ks, Ky < Ks 
而 且 算 法 N 仅仅 用 两 次 扫描 完成 对 这 个 文件 的 排序 (因为 有 8 个 或 更 多 的 路 段 , 预 期 在 第 一 次 扫 
描 之 后 至 少 有 4 个 路 段 ,在 第 二 次 扫描 之 后 有 2 个 路 段 ,而 通常 至 少 经 过 3 次 扫描 才能 完成 排序 。 
如 何 能 通过 仅仅 两 次 扫描 来 完成 )。 

7.[16」 试 给 出 算法 S 所 需要 的 精确 扫描 次 数 的 公式 (作为 N 的 一 个 函数 )。 

8.[22] 在 算法 S 中 ,假定 变量 9 和 > 表示 当前 正在 处 理 的 路 段 中 尚未 合并 的 诸 元 素 的 长 度 ， 
9 和 vr 两 者 开始 都 等 于 p, 但 路 段 并 不 都 是 这 样 长 的 。 问 这 怎么 能 行 得 通 呢 ? 

9.124] 与 出 算法 S 的 一 个 MIX 程序 ,利用 类 似 于 程序 L 中 的 量 A,B’,B”,C’,… 确 定 指令 


10.[25] (D.A.BelD 说 明 顺序 分 配 的 直接 两 路 合并 可 以 通过 至 多 -3 N 个 存储 单元 完成 ,而 


不 是 像 算 法 S 中 那样 需要 2N 个 。 

11.[21 |] 算法 工 是 一 个 稳定 的 排序 方法 吗 ? 

12.122] 利用 开始 时 存在 的 递增 路 段 ,修正 算法 LL 的 步骤 L1, 使 得 两 路 合并 是 “自然 的 ”( 特 
别 是 ,如 果 输 入 已 经 有 序 , 则 在 你 的 步骤 L1 进行 之 后 ,步骤 1L2 应 立即 终止 这 个 算法 )。 

13.14434 ] 按 这 一 章 中 其 它 分 析 的 风格 ,给 出 对 程序 L 的 平均 运行 时 间 的 分 析 : 解 释 量 A， 
B,B 并 且说 明 怎 样 计算 它们 的 精确 平均 值 。 为 对 表 3 中 的 16 个 数 排序 ,程序 L 要 用 多 长 时 
间 ? 

14.14424] 设 N 的 二 进 表 示 是 24+22+…+24, 其 中 ej>ej>…>e0,z 壹 1。 证 明 由 算 
法 L 执行 的 键 码 比较 极 大 次 数 是 1 -2%+ i_ (es+k-1)2%。 

15.[20」 算 法 工 的 手工 模拟 揭示 , 它 有 时 做 一 些 多 余 的 动作 ;步骤 L4 和 16 中 的 赋值 |L., | 
PpP,1L,|<q 有 一 半 的 次 数 是 不 必要 的 ,因为 在 每 次 由 步骤 L4( 或 L6) 返 回 到 L3 时 ,我 们 有 工 .= 
(或 9)。 如 何 能 改进 程序 L, 来 消除 这 些 多 余 的 赋值 

16.L128」 设计 一 个 类 似 算法 L 的 表 合 并 算法 ,但 它 以 三 路 合并 为 基础 。 

17.L120」 (J.M.Carthy) 设 N 的 二 进 表示 如 同 习 题 14 中 那样 ,并 假定 给 了 我 们 NN 个 记录 ,这 
些 记录 分 布 在 i 个 有 序 子 文件 中 ,其 大 小 分 别 为 24,22,…,2“。 试 说 明 当 附加 一 个 新 的 第 
(N+1) 个 记录 且 N 一 N+1 时 ,怎样 维持 这 一 事态 (得 到 的 算法 可 以 称 为 “联机 ”合并 排序 )。 

18.[40」 (M.A.Kronrod 给 定 仅 含 两 个 路 段 的 六 个 记录 的 一 个 文件 

Ki 三-… 夺 Ky 和 Kx 二 … 达 Kn 
有 可 能 在 一 个 随机 存 取 存储 器 中 用 O(N) 个 操作 对 这 个 文件 排序 吗 ? 而 且 不 论 M 和 NN 的 大 小 
如 何 , 只 许 使 用 少量 固定 的 附加 存储 空间 (本 节 描 述 的 所 有 合并 算法 都 使 用 与 N 成 比例 的 额外 存 
储 空间 )。 

19.[26」 考虑 当 n=5 时 ,如 图 31 中 所 示 的 具有 个 “ 栈 ” 的 铁路 转 辐 器 网 络 ( 在 习题 2.2.1- 
2 一 2.2.1-5 中 ,我们 曾 考 虑 过 一 个 栈 的 网 络 ) 。 如 果 有 N 列 火 车 从 右边 进入 ,我们 发 现 , 在 一 个 栈 
的 情况 下 ,这 些 车 的 N! 个 排列 中 仅 有 比较 少 的 排列 出 现在 左边 。 
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图 31 具有 5 个 “ 栈 " 的 铁路 网 络 
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在 ”个 栈 的 网 络 中 ,假定 有 2” 列车 从 右边 进入 。 试 证 明 这 些 列车 的 2”! 种 可 能 排列 中 的 每 
一 种 ,通过 适当 的 操作 序列 都 可 在 左边 得 到 。 必 要 时 每 个 栈 都 比 图 中 所 示 的 要 大 得 多 ,以 便 能 容 
纳 所 有 的 列车 。 
20.[47] 在 习题 2.2.1-4 的 符号 标记 下 ,通过 n 个 栈 的 铁路 网 络 至 多 能 产生 NN 个 元 素 的 ea 
个 排列 ;因此 为 得 到 所 有 NI 个 排列 所 需要 的 栈 数 至 少 是 log NI jlog aNslog4 No。 习题 19 则 说 
明 至 多 需要 [lg N | 个 栈 。 当 nn 下 co 时 ,所 需要 栈 数 的 真实 增长 率 是 多 少 ? 
21.[23 ](A.J.Smith) 说 明 怎 样 扩充 算法 L, 使 得 除 排序 外 , 它 还 计算 输入 排列 中 出 现 的 反 序 
个 数 。 
22.[28](J.K.R.Barnett) 试 提出 一 个 方法 来 加 速 对 于 多 字 键 码 的 合并 排序 (习题 5.2.2-30 
考虑 了 对 于 快速 排序 的 类 似 问 题 )。 
23.[M30] 习题 13 和 14 分 析 了 合并 排序 的 “由 底 向 上 "或 迭代 版 本 ,其 中 对 N 项 排序 的 费 
用 c(N) 满 足下 列 弟 推 式 : 
c(N) = c(24) +c(N -24) + f(2,N -2:) 对 于 2 <N 雪 2 
flm,n) 是 把 m 个 事物 同 ”个 事物 合并 的 费用 。 研 究 “ 由 项 向 下 "或 分 而 治之 递 推 却 
c(N) = ce(TN/21) +c(N2) + FTN2D),LN2) 对 于 N>1 
此 式 出 现 于 合并 排序 以 递归 形式 来 进行 程序 设计 时 。 


5.2.5 通过 分 布 进行 排序 


我 们 下 面 要 讨论 的 一 类 有 趣 的 排序 方法 , 当 以 5.4.7 小 节 中 将 讨论 的 观点 来 看 
时 ,实质 上 恰 是 与 合并 相对 。 这 些 方法 在 电子 计算 机 发 现 以 前 , 曾 被 用 于 对 穿孔 卡 
片 进行 排序 许多 年 。 同 样 的 方法 也 可 用 于 计算 机 的 程序 设计 ,并 且 由 于 它 是 以 键 码 
的 数字 为 基础 的 ,因而 一 般 称 它 为 “ 桶 排序 ”"、“ 基 数 排序 "或 “数字 排序 ”。 

假设 要 对 52 张 扑克 有 牌 进行 排序 。 我 们 可 以 定义 

A<2<3<4<5<6<7<8<9<10<J<Q<K 
作为 面值 的 一 个 排序 ,而 对 于 花色 ,我 们 可 以 定义 
条 < 人 小 < < 全 
如 果 (i) 一 张 牌 的 花色 小 于 另 一 张 牌 的 花色 ,或 (i) 花 色相 同 ,但 它 的 面值 较为 一 张 
牌 小 (这 是 对 象 有 序 偶 之 间 的 一 个 字典 次 序 的 特殊 情况 ,参见 习题 5-2), 则 我 们 称 这 
张 牌 是 位 于 另 一 张 牌 之 前 。 于 是 
A 和 < 2 和 < …<K 和 < A4D<…<Q 和 < 天 人 

可 以 用 已 经 讨论 过 的 任何 方法 来 对 这 些 牌 进行 排序 ;人 们 通常 使 用 有 些 类 似 于 
基数 交换 思想 的 一 种 技术 : 先 按 它们 的 花色 分 成 4 堆 , 然 后 拨弄 每 一 堆 直 到 它们 变 
成 有 序 的 为 止 。 

但 是 还 有 一 种 更 快 的 方式 来 处 理 这 千 牌 ! 首先 把 这 些 牌 仰 面 分 成 13 堆 ,每 种 
面值 一 堆 。 然 后 通过 把 牌 A 放 在 下 边 ,2 朝 上 放 在 它们 的 上 面 , 然 后 放 3 在 上 面 ,等 
等 ,最 后 把 K 面 朝 上 放 在 上 边 ,来 收集 这 些 堆 。 翻 转 这 些 牌 使 它们 面 朝 下 并 且 青 次 
分 堆 , 这 次 按 4 种 花色 分 成 4 堆 。 把 这 样 得 到 的 4 堆放 在 一 起 , 黑 梅 花 放 在 底下 , 然 
后 方块 、 红 桃 和 黑 桃 ,这 副 牌 就 成 为 完全 有 序 的 了 。 

同样 的 思想 也 可 应 用 于 数 和 字母 数据 的 排序 。 为 什么 它 有 效 呢 ? 因为 (在 扑克 
牌 的 例子 中 ) 如 果 两 张 牌 在 最 后 分 堆 时 位 于 不 同 的 堆 中 , 则 它们 有 不 同 的 论 色 ,所 以 
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具有 较 低 花色 的 一 张 在 最 下 面 。 但 是 如 果 两 张 纸牌 有 相同 的 花色 (因此 它们 分 在 同 
一 堆 中 ), 则 由 于 前 边 的 排序 它们 已 处 于 适当 的 次 序 了 。 换 言 之 , 当 我 们 第 二 次 扫描 
这 些 纸牌 时 ,对 于 这 4 堆 的 每 一 扒 ,面值 将 处 于 递增 的 次 序 。 同 样 的 证 明 可 被 抽象 
出 来 ,以 指出 任何 字典 次 序 也 可 以 用 这 种 方式 进行 排序 ;关于 其 细节 , 见 本 章 开始 处 
习题 5-2 的 答案 。 

刚才 描述 的 排序 方法 并 非 一 目 了 然 ,并 且 也 不 清楚 是 谁 最 先 发 现 它 如 此 有 效 。 
1923 年 ,IBM 的 Tabulating Machine Company 分 部 发 表 的 题 为 “The Inventory Sim- 
plified 的 19 页 小 册子 ,介绍 了 在 他 们 的 电动 排序 机 上 ,形成 乘积 和 的 一 种 有 趣 的 数 
字 计 划 方 法 :例如 ,假设 我 们 要 用 23 一 25 列 上 穿孔 的 数 来 乘 1 一 10 列 上 穿孔 的 数 ， 
并 对 大 量 的 卡片 把 这 些 乘 积 加 起 来 。 可 以 首先 对 第 25 列 进 行 排序 ,然后 使 用 Tabu- 
lating Machine 求 量 al ,ay,…，,ao ,其 中 cs 是 对 于 在 第 25 列 中 有 的 所 有 卡片 的 1 
一 10 列 求 和 的 总 数 。 然 后 可 以 对 第 24 列 进行 排序 , 求 类 似 的 总 和 51,5,，,… ,bo; 然 
后 对 第 23 列 ,得 到 cc，…，,co。 容易 看 出 所 求 的 乘积 和 是 

41 十 2 十 十 9ao+100+2003 + :+ 906o + 100c1 + 200c， + … + 900co 

这 种 穿孔 卡片 的 造 表 方 法 自然 导致 发 现 首 先 对 最 低 数字 排序 的 基数 排序 方法 ,所 以 
它 后 来 大 概 已 为 机 器 的 操作 员 所 熟知 。 这 个 排序 原理 的 第 一 个 公开 参考 文献 出 现 
于 L.J.Comrie 天 于 穿 扎 卡 片 设 备 的 早期 讨论 中 [Transactions of the Office Machin- 
ery Users Assoc. ,Ltd (1929) ,2$ 一 37 ,特别 是 第 28 页 ] 。 

为 了 处 理 一 台 计 算 机 内 部 的 基数 排序 ,我 们 必须 决定 如 何 处 理 这 些 堆 。 假 定 有 
M 个 堆 ,我 们 可 以 留 出 M 个 存储 区 域 ,把 来 自 输 入 区 域 的 每 个 记录 移 到 它 的 适当 
的 堆 区 域 中 。 但 这 难以 令 人 满意 ,因为 每 个 区 域 都 必须 足够 地 大 以 容纳 N 个 项 目 ， 
而 这 将 要 求 (M +1)NN 个 记录 的 空间 。 因 此 大 多 数 人 都 拒绝 在 计算 机 内 部 做 基数 
排序 的 考虑 ,直到 H.H.Seward[Master’s thesis, M.I.T. Digital Computer Laboratory 
Report R 一 232 ,(1954),25 一 28] 指 出 ,可 以 仅 用 2N 个 记录 的 区 域 和 M 个 计数 字 
段 , 来 达到 同样 的 效果 ,情况 才 有 所 改变 。 只 需 对 这 些 数据 进行 初步 扫描 ,以 计算 
M 堆 中 的 每 一 堆 将 有 多 少 个 元 素 ; 这 确切 地 告诉 我 们 怎样 为 这 些 堆 分 配 存储 。 在 
“分 布 计 数 排序 "算法 5.2D 中 ,已 经 利用 了 同样 的 思想 。 

于 是 基数 排序 可 以 按 如 下 方式 进行 :首先 按键 码 的 最 低位 数字 (在 基数 M 的 记 
法 下 ) 进 行 分 布 排序 ,把 取 自 输入 区 域 的 记录 移 到 一 个 辅助 区 域 。 然 后 对 于 下 一 个 
最 低位 ,进行 另 一 次 分 布 排序 ,把 记录 移 回 到 原来 的 输入 区 域 ,等 等 ,直到 最 后 (对 最 
高 位 数字 ) 的 扫描 把 所 有 的 记录 排 成 所 希望 的 次 序 为 止 。 

如 果 有 一 台 具 有 12 位 数字 的 键 码 的 十 进 制 计算 机 ,并且 N 相当 大 , 则 可 以 选 
择 M =1000( 考 虑 3 个 十 进 数字 作为 一 个 1000 进 制 的 数字 ) ;排序 将 在 4 次 扫描 中 
完成 ,而 不 论 六 的 大 小 如 何 。 类 似 地 ,如 果 有 一 台 二 进 制 计算 机 和 一 个 40 位 的 键 
码 , 则 可 以 置 M=1024=2 ,并 且 在 4 次 扫描 中 完成 排序 。 实 际 上 ,每 次 扫描 由 三 
部 分 组 成 (计数 ,分 配 , 移 动 );E.H.Friend [JACM 3(1956)151] 已 经 建议 ,在 第 & 次 
扫描 中 移动 记录 的 同时 ,为 第 +1 次 扫描 累加 计数 ,这 样 , 就 能 以 多 用 M 个 存储 单 
元 为 代价 ,把 扫描 中 的 两 件 事情 组 成 在 一 起 。 

表 1 说明 ,对 于 M = 10, 这 样 一 个 基数 排序 如 何 被 应 用 于 我 们 的 16 个 示例 数 
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字 。 一 般 来 说 ,对 于 这 样 小 的 N 基数 排序 没有 什么 用 , 举 这 样 一 个 小 例子 的 目的 是 
要 说 明 这 个 方法 的 充分 性 而 不 是 其 效率 。 
表 1 基数 排序 
输入 区 域内 容 : 503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 
对 于 个 位 数字 分 布 的 计数 : 1! 12312 1 3 1 1 
以 这 些 计数 为 基础 的 存储 分 配 : 1 2 47 8 10 11 14 15 16 
辅助 区 域 的 内 容 : 170 061 512 612 503 653 703 154 275 765 426 087 897 677 908 509 
对 于 十 位 数字 的 分 布 的 计数 : 4210022 3 1 1 
以 这 些 计数 为 基础 的 存储 分 配 : 4 6 7 7 7 9 1!1 14 15 16 


输入 区 域 的 内 容 : 503 703 908 509 512 612 426 653 154 061 765 170 275 677 087 897 
对 于 百 位 数字 的 分 布 的 计数 : 2 2 .10 133 2 1 1 
以 这 些 计数 为 基础 的 存储 分 配 : 2 4 5 56 9 12 14 15 16 
辅助 区 域内 容 : 061 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908 





然而 ,一 个 敏感 的 “现代 ”读者 将 注意 到 ,对 于 存储 分 布 进行 数字 计数 的 整个 思 
想 ,都 受到 顺序 数据 表示 的 “ 旧 ” 思 想 的 束缚 ;我 们 知道 ,链接 分 配 是 特别 设计 用 来 处 
理 可 变 大 小 的 多 重 表 的 ,所 以 对 于 基数 排序 自然 应 选择 链接 的 数据 结构 。 由 于 串 行 
地 遍历 每 一 堆 , 因 此 需要 的 仅仅 是 从 每 个 项 目 到 它 的 后 继 者 的 一 条 单 链 。 而 且 ,次 
不 需要 移动 这 些 记录 , 仅 需 调整 这 些 链接 并 轻快 地 向 下 通过 这 个 表 。 需 要 的 存储 数 
量 是 (1+ ec)N+2cM 个 记录 ,其 中 :是 一 个 链接 字段 所 取 的 空间 数量 。 这 个 过 程 的 
形式 细节 是 相当 有 趣 的 ,因为 它 提供 了 一 个 典型 数据 结构 操作 的 完美 例子 , 它 综合 


了 顺序 的 和 链接 的 分 配 。 
第 大 位 数字 


R5. 步 进 到 下 
一 个 记录 
图 32 ”基数 表 排 序 


算法 R( 基 数 表 排 序 ) 假定 记录 R1… Rw 中 的 每 个 都 包含 一 个 LINK 字段 ,化 
们 的 键 码 是 p 元 组 



















R2. 置 诸 堆 皆 空 





R1. 对 k 进 行 循环 


k>p 






最 后 的 记录 


(ai1,a2,'"",Qp), 0a;<M (1) 
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其 中 ,次 序 按 字典 顺序 定义 , 即 


[0 人 (之 ) 


当 且 仅 当 对 某 个 ) ,1I 委 ) 委 P, 我 们 有 


对 所 有 驻 委 放生 2EE0 个 六 交 遍 (3 


特别 是 , 键 码 可 以 想 成 是 以 基数 M 的 表示 法 写成 的 数 


和 C4) 


在 这 种 情况 下 ,字典 次 序 相 当 于 非 负数 的 正常 次 序 。 键 码 也 可 以 是 字母 串 , 等 等 。 

排序 使 用 M“ 堆 "记录 ,以 模拟 一 个 卡片 排序 机 动作 的 方式 来 进行 。 诸 堆 事 实 
上 都 是 第 2 章 意义 上 的 队列 ,因为 我 们 把 它们 链接 在 一 起 ,使 得 它们 以 先进 先 出 的 
方式 被 过 历 。 对 于 每 个 堆 ,都 有 两 个 指针 变量 TOP[ 和 BOTM[;] ,0 入 ;< M ,而 且 如 
同 在 第 2 章 那样 ,我 们 假定 


RI1. 


R2 . 
R3 


R4. 
RS. 


R6. 


LINK(LOC(BOTM|[ 1 | )) = BOTM[ ;| (5) 


[对 & 进行 循环 ] 开始 时 , 置 p 一 LOC( Ry), 这 是 指向 最 后 记录 的 一 个 指针 。 
然后 对 于 有 =1,2,…,p 执行 步 又 R2 到 R6( 步 骤 R2 到 R6 组 成 一 趟 “ 扫 
描 )。 然 后 这 个 算法 终止 , 且 p 指向 具有 最 小 键 码 的 记录 ,LINK(P) 指 向 
具有 次 小 键 码 的 记录 ,接着 LINK(LINK(P)), 等 等 ;在 最 后 记录 中 的 LINK 
将 是 A。 

[ 置 诸 堆 皆 空 ] 对 于 0 二 i < M , 置 TOP[i]<-LOC(BOTM[i]) 和 BOTM[i1]<-A。 
[抽取 键 码 的 第 位 数字 ] 令 由 了 访问 的 记录 中 的 键 码 KEY(P) 是 (a ,a,， 
这 个 和 刍 公 的 第 龙 个 最 低位 

[调整 链接 ] 置 LINK(TOPL i ]) 一 P ,然后 置 TOP[ i 1<-P。 

[ 步 进 到 下 一 个 记录 」 如 果 有 =1( 第 一 次 扫描 ) 且 如 果 对 于 某 个 j 关 1,P= 
LOC(Rj), 则 置 P<-LOC(R;-1) 并 返回 到 R3。 如 果 有 >1( 随 后 的 扫描 ), 则 置 P 
<-LINK(P) ,如 果 P 关 A 则 返回 到 R3。 

[执行 算法 H] (现在 已 把 所 有 的 元 素 都 分 配 到 诸 堆 上 ) 实 施 以 下 的 算法 
H, 它 把 各 堆 “ 钩 在 一 起 ”, 形 成 一 个 表 , 以 准备 进行 下 次 扫描 。 然 后 , 置 P 一 
BOTML0j ,这 是 指向 已 钩 起 来 的 表 的 第 一 个 元 素 的 指针 (见习 题 3)。 | 


算法 H( 队 列 的 挂钩 ) 给 定 M 个 队列 ,它们 已 各 自 按照 算法 R 的 约定 链接 ,本 算 
法 至 多 调整 M 个 链接 来 建立 一 个 单 队列 , 且 BOTM[0j] 指 向 第 一 个 元 素 , 并 置 堆 0 在 
1 ;在 堆 M 一 1 之 前 。 


Hil. 
H2. 
H3. 


[初始 化 ] 置 i 一 0。 
| 指向 堆 的 顶部 ] 置 P<-TOP[i]。 
[下 一 堆 ] i 加 1。 如 果 i = M , 则 置 LINK(P)<-A ,并 终止 此 算法 。 
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H4.[ 堆 为 空 ?] 如 果 BOTM[i]=A, 则 回 到 H3 。 

HS .[ 把 诸 堆 链 在 一 起 ] 置 LINK(P)< 一 BOTMLi] ,返回 到 H2。 | 

图 33 所 示 为 以 M = 10 对 我 们 的 16 个 例 数 进行 排序 时 ,三 次 扫描 之 后 的 情况 ， 
一 旦 找到 处 理 步 又 R3 和 RS 的 逐 趟 变形 的 一 个 适当 方法 , 则 算法 R 的 MIX 程序 是 
非常 容易 编写 的 。 下 列 程序 通过 重合 两 条 指令 ,在 不 牺牲 内 循环 任何 速度 的 情况 
下 ,做 到 了 这 一 点 。 注 意 TOP[i] 和 BOTM[ i] 可 以 组 装 进 同一 字 中 。 


TOP[0] TOR1] TOP[2] TOPF[3} TOPL4] TOPL5] TOP{[6] TOP{7] TOP[8] TOP[9] 


mo [0] 69 





BOTMIO] BOTM[ BOTM[2] BOTM[3] BOTM[4] BOTM[5] BOTM[6] BOTM[7] BOTM[8] BOTM[9] 


TOP[0] TOR]] TOPI2] TORF{3] TOR[4] TOPL5] TOP[6] TOP[7} TOP[8] TOP[9] 


275 


653| [06U [Lo 1087| 1897 


BOTM[0] BOTM[1] BOTM[2] BOTM[3] BOTM[4] BOTM[5] BOTM[6] BOTM[7] BOTM[8] BOTM[9] 
十 一 





TOP[O] TORI] TOP[2] TOPI TOP[4] TOP[5] TOP[6] TOP[7] TOP[8] TOP[9] 





087 765 
061 908 


BOTM[0] BOTM[1] BOTM[2] BOTMI3) BOTM[4] BOTM[5] BOTM[6] BOTM[7] BOTM[8] BOTM[9] 


图 33 ”使 用 链接 分 配 的 基数 排序 :在 每 次 扫描 之 后 10 个 堆 的 内 容 
程序 R( 基 数 表 排序 ) 假定 单元 INEUT+ 1 到 INPUT+N 中 的 输入 有 p=3 个 分 
量 (41,a,;,a3) ,分别 存储 在 (1:1),(2:2) 和 (3:3) 字 段 中 (这 就 假定 了 M 是 小 于 或 等 
于 MIX 的 字 节 大 小 的 )。 每 个 记录 的 (4:5) 字 段 是 它 的 LINK。 对 于 0 委 ;< M , 令 TOP 
[可 三 PILES+i(1:2) 和 BOTM[i] 夺 PILES 十 i(4:5)。 使 诸 链 接 同 单元 INPUT 相关 ,以便 


169 ， 


第 5 章 排序 


LOC(BOTM[1i] = PILES+i- INPEUT 是 方便 的 ;为 了 避免 负 链 接 ,因此 我 们 要 求 PILES 表 
处 于 比 INPUT 表 高 的 单元 。 对 变 址 寄存 器 赋值 如 下 :rll 圭 P,rI2 二 i, rl3 圭 3 一 ,rl4 


==TOP[; ] ;在 算法 H 期 间 ,rI2=; - M。 


01 


LINK 
TOP 
START 


2H 


3H 
4H 


SH 


6H 


R3SW 


R5SW 


9H 


7H8 
8H 
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EQU 


4:5 

1:2 

N 

2 

M—1 
PILES-INPUT , 2 
PILES ,2(TOP) 
PILES ,2(LINK) 
1 

< 一 4 

R3SW,3 

3F 

R5SW,3 

5F 
INPUT,1(3:3)] 
PILES ,2( TOP) 
INPUT, 4(LINK) 
PILES ,2(TOP) 
1] 

3B 

M 

7E 
INPUT,1(1:1) 
INPUT,1(2:2) 
INPUT,1(3:3) 
INPUT, 1 (LINK) 
INPUT, 1(LINK) 
1 
PILES + M,2(LINK) 
8F 

INPUT, 1(LINK) 
PILES + M,2(TOP) 
1 

9B 

INPUT, 1 (LINK) 
PILES(LINK) 

1 

2B 


之 ZZZzz” 了 这 


| 


| 
by 


RI1. 对 & 春 行 循环 。Pe LOCCRN) 
kl 

R2. 阜 请 奴 租 人 空 

LOC( BOTM| i ]) 

—>TOP| 1] 

BOTM[ i ] < 一 和 


M2>i 宇 0 


修改 第 & 次 扫描 的 指令 


R3. 抽取 键 码 的 第 位 数字 
R4. 疝 整 链接 
LINK(TOP[ i ] )<—P 
TOP[ i j]<—P 

RS5. 态 进 到 下 一 个 记录 
如 果 扫 找 结 束 转 到 R3 
R6. 执行 算法 量 

以 i 一 0 转 到 H2 

当 &=3 时 ,R3 的 指令 
当 &=2 时 ,R3 的 指令 
当 &=1 时 ,R3 的 指令 
当 &=3 时 ,RS 的 指令 
当 &=2 时 ,Rs 的 指令 
当 &=1l 时 ,RS 的 指令 
H4. 雄 为 空 ? 

如 果 BOTM[i] = 入, 则 转 到 H3 
HH5. 把 请 众 链 在 一 起 
BE2. 指向 纵 的 顶部 
H3. 下 一 梭 。i<-i+1 
如 果 i 关 MM 转 到 H4 
LINK(P)<—A 人 人 
P<—BOTM[ 0] 


对 1 过 k 志 3 循环 | 
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程序 R 的 运行 时 间 为 32N +48M +38 一 4E ,其 中 N 是 输入 的 记录 个 数 ,M 是 
基数 ( 堆 数 ),E 是 出 现 的 空 堆 个 数 。 这 非常 适合 于 同 以 类 似 假 定 为 基础 的 其 它 程序 
(程序 5.2.1M,5.2.4L) 进 行 对 比 。 这 个 程序 的 p 趟 变形 将 花费 (11p 一 1)N+ 
O(pM) 个 单位 时 间 ; 计 时 中 的 关键 因素 是 内 部 循环 , 它 包 含 5 次 对 存储 的 访问 和 1 
次 转移 。 在 一 台 典 型 的 计算 机 上 ,有 M=6b 和 p=|zt/r1, 其 中 :是 在 这 些 键 码 中 基 
数 6 的 数字 个 数 ;增加 > 将 减少 p, 所 以 这 个 公式 可 用 来 确定 r“ 最 好 的 " 值 。 

计时 中 惟一 的 变量 是 五 , 即 在 步骤 H4 中 发 现 的 空 堆 个 数 。 如 果 认 为 基数 为 M 
的 MA 个 数字 序列 中 的 每 一 个 都 是 同等 可 能 的 , 则 从 3.3.2D 中 对 于 “扑克 检验 的 
研究 知道 ,每 次 扫描 有 M - r 个 空 堆 的 概率 是 

M(M—-1)…(M—-r+1) 
MY 


其 中 | ”| 是 第 二 类 斯 特 林 数 。 由 习题 5 


N 


(6) 








N 
E = (min max(M - N,0)p,aveM [1— 广 p,max (M — 1)p») (7) 
“流水 线 " 或 “ 吞 嚼 "数据 的 计算 机 近年 来 与 日 俱 增 。 这 些 机 器 有 多 个 运算 硕 以 
及 “先行 控制 ?线路 ,使 得 存储 的 访问 可 以 和 计算 高 度 重 装 ,但 是 它们 的 效率 在 出 现 
条 件 转移 指令 时 显著 地 下 降 ,除非 这 个 转移 几乎 总 是 走 同 一 条 路 。 一 个 基数 排序 的 
内 部 循环 ,很 适合 于 这 种 机 器 ,因为 它 是 典型 的 “ 吞 嚼 ”数据 形式 的 一 个 直接 迭代 计 
算 。 因 此 ,假定 N 不 太 小 而 键 码 不 太 长 的 话 , 比 起 在 这 样机 器 上 的 任何 其 它 已 知 的 
内 部 排序 方法 来 ,基数 排序 通常 要 更 为 有 效 。 
当然 ,基数 排序 在 键 码 极其 长 时 不 是 非常 有 效 的 。 例 如 ,假定 要 使 用 M = 10”， 
以 一 个 基数 排序 的 20 次 扫描 ,来 对 60 位 十 进 数 进行 排序 ;在 它们 前 9 位 数字 中 ,很 
少 有 一 对 数 趋 向 于 有 相同 的 键 码 ,所 以 前 17 次 扫描 完成 的 事情 很 少 。 在 对 基数 交 
换 排 序 的 分 析 中 ,我 们 发 现 , 当 从 左边 而 不 是 右边 考察 键 码 时 ,没有 必要 观察 键 码 的 
许多 二 进位 。 因 此 ,我 们 重新 考虑 从 最 高 位 数字 (MSD) 而 不 是 从 最 低位 数字 (LSD) 
开始 的 基数 排序 的 思想 。 
我 们 已 经 说 过 ,首先 排 最 高 位 数字 的 基数 方法 是 很 自然 形成 的 ;事实 上 ,不 难看 
出 ,为 什么 邮局 即使 用 这 样 一 种 方法 来 对 邮件 进行 排序 。 大 量 的 信件 可 以 排序 成 按 
不 同 地 理 区 域 分 开 的 邮包 ,每 一 个 包 包 含 较 少量 的 信件 ;然后 这 些 信件 可 独立 于 其 
它 的 包 , 按 越 来 越 细 的 地 理 区 域 继续 排序 (实际 ,在 它们 进一步 被 排序 之 前 ,已 被 投 
递 到 更 接近 于 它们 目的 地 的 地 方 )。 这 个 “分 而 治之 "的 原理 是 十 分 有 吸引 力 的 ,而 
它 对 穿孔 卡片 的 排序 不 特别 适用 的 惟一 原因 ,是 它 毕 竟 花 费 太 多 的 时 间 去 跟 非常 小 
的 堆 打 交道 。 算 法 R 是 相对 有 效 的 ,尽管 它 首先 考虑 最 低 有 效 位 数字 ,因为 绝 不 会 
多 于 M 个 堆 ,而 且 它 们 仅仅 需要 钩 在 一 起 如 次 。 另 一 方面 ,利用 链接 内 存 , 并 像 算 
法 5.2.4L 那样 以 负 的 链接 来 表示 堆 之 间 的 边界 , 则 不 难 设计 首先 处 理 最 高 有 效 位 
的 方法 (见习 题 10)。 主 要 的 困难 在 于 空 堆 趋 向 于 繁衍 扩大 ,并 且 在 最 高 有 效 位 优 
先 方法 中 耗费 大 量 时 间 。 
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最 好 的 折衷 可 能 是 M.D.MacLaren 所 提出 来 的 LUJACM 13(1966) ,404 一 411 ] ， 
他 推荐 如 算法 R 中 那样 的 首先 处 理 最 低位 数字 的 排序 ,但 仅仅 应 用 于 最 高 的 那些 数 
字 位 。 这 不 能 完全 把 文件 排 好 序 ,但 它 通常 都 把 文件 排 成 为 非常 接近 有 序 的 ,而 仅 
剩 很 少 的 反 序 ;因此 可 用 直接 插入 来 完成 。 对 算法 5.2.1M 的 分 析 也 可 应 用 于 这 种 
情况 ,所 以 ,如果 键 码 是 均匀 分 布 的 ,在 对 前 p 个 数字 进行 排序 之 后 ,将 在 文件 中 平 
均 剩 下 
FN(N _ 1)M? 


个 反 序 ( 见 等 式 5.2.1-(17) 和 习题 5.2.1-38)。MacLaren 已 经 算出 每 排 好 一 个 项 目 
所 需 的 存储 访问 的 平均 次 数 , 以 及 M 和 pp 的 最 优选 择 ( 假 定 M 是 2 的 乘 方 ,以 及 这 
些 键 码 都 是 均匀 分 布 的 , 且 N/M? 二 0.1, 则 对 于 均匀 性 的 偏离 是 可 以 容忍 的 ) 是 由 
下 表 给 出 的 : 
N= 100 1000 10000 100000 1000000 10” 105 10? 
最 好 的 M= 32 128 512 1024 8192 23 27 2 
最 好 的 p= 2 2 2 2 2 2 2 2 
B(N) =19.3 18.5 18.2 18.1 18.0 18.0 18.0 18.0 
此 处 B(N ) 表 示 每 排 好 一 个 项 目 所 需 的 平均 存储 访问 次 数 
一 H 
A yi _N (8) 
当 N 一 % 时 它 是 有 限 的 ,如 果 取 p=2 和 M >vNN, 则 平均 的 排序 时 间 实 际 上 是 
O(N ) 而 不 是 NlogNN 阶 的 。 这 个 方法 是 对 多 重 表 插 入 (算法 5.2.1M) 的 一 个 改进 ， 
后 者 实质 上 是 p =1 的 情况 。 对 于 一 个 部 分 地 用 表 排 好 序 的 文件 的 最 后 重 排 ,习题 
12 给 出 MacLaren 的 一 个 有 趣 的 方法 。 
也 有 可 能 使 用 算法 5.2D 和 习题 5.2-13 的 方法 来 避免 链接 字段 ,以便 除了 记录 
本 身 所 需要 的 空间 外 ,仅仅 需要 O(VN) 个 存储 单元 。 如 果 输 入 记录 是 均匀 分 布 
的 , 则 平均 排序 时 间 同 N 成 比例 。 
W .Dobosiewicz 通过 使 用 MSD 优先 的 分 布 排序 ,直到 达到 短 的 子 文件 为 止 , 同 
时 限制 分 布 过 程 以 确保 前 M/2 堆 接 受 25% 和 75% 之 间 的 记录 [参见 Inf. Proc. Let- 
ters 7(1978) ,1 一 6;8(1979),170 一 172]; 这 确保 对 均匀 键 码 排序 的 平均 时 间 为 
O(NI) 而 最 坏 情况 为 O(NlogN)。 他 的 论文 激励 了 许多 其 它 的 研究 者 来 设计 新 的 
地 址 计算 算法 ,其 中 最 有 启发 性 的 可 能 就 是 下 面 由 Markku Tamminen 给 出 的 2 级 
方案 L.ALgorithms 6(1985),138 一 144]: 假 定 所 有 键 码 都 是 区 间 [0..1) 中 的 分 数 。 
通过 把 键 码 K 映射 到 箱 |L KN/8], 把 NN 个 记录 分 布 到 | N/8j 个 箱子 。 然 后 假设 箱 & 
接受 了 N 个 记录 ;如 果 Nj; 三 16, 通 过 直接 搬入 来 对 它 排序 ,否则 通过 一 个 类 似 Ma- 
cLaren 的 分 布 + 插 入 排序 ,将 其 排序 到 M?* 个 箱 中 ,其 中 Ms10N, 。Tamminen 证 
明了 下 列 值 得 注意 的 结果 : 


定理 T 每 当 键 码 为 独立 随机 数 ， 其 密度 消 数 {(x) 有 限 且 对 于 0x 硅 1, 它们 
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B(N)= 5p+8+ 
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是 黎 备 可 积 时 , 则 存在 一 个 常数 了 工 ,使 得 刚才 播 述 的 菲 序 方法 平均 说 来 最 多 实施 TN 
个 操作 (常数 工 不 依赖 于 了 )。 


证 明 参见 习题 18。 直 观 地 说 ,第 一 次 分 布 到 Nj8 个 堆 将 发 现 f 近似 为 常数 
的 区 间 ;然后 第 二 次 分 布 将 使 预期 的 箱 大 小 近似 为 常数 。| 


在 由 P.M.Mcllroy,K.Bostic 以 及 M.D.McIlroy[Computing Systems 6(1993 ) ， 
$ 一 27] 所 撰写 的 一 篇 很 有 启发 的 文章 中 ,描述 了 几 个 不 同 版 本 的 基数 排序 ,它们 经 
过 很 好 地 调整 ,适合 于 对 很 大 的 字符 串 数组 进行 排序 。 


习题 


1.[20] 习题 5.2-13 的 算法 说 明 ,对 于 仅 有 N 个 记录 (以 及 M 个 计数 字段 ) 而 不 是 2N 个 记 
录 的 区 域 ,怎样 来 做 一 个 分 布 排序 。 这 能 引出 一 项 对 于 表 1 中 说 明 的 基数 排序 算法 的 改进 吗 ? 
2.[13] 算法 R 是 一 个 稳定 的 排序 方法 吗 ? 
3.[15] 说 明 为 什么 在 算法 H 中 ,虽然 堆 0 可 以 是 空 的 ,但 BOTML0] 指 向 钩 起 的 队 中 的 头 一 个 
记录 。 
> 4.[23] 算法 R 把 M 个 堆 链接 在 一 起 成 为 (先进 先 出 ) 队 , 试 剖 析 链 接 诸 堆 成 为 一 些 栈 的 思 
想 (图 33 中 的 第 头 将 向 下 进行 而 不 是 向 上 , 且 BOTM 表 是 不 必要 的 )。 证 明 : 如 果 诸 堆 以 适当 的 次 
序 钩 在 一 起 , 则 有 可 能 得 到 一 个 有 效 的 排序 方法 ,这 能 构成 一 个 更 简单 或 一 个 更 快 的 算法 吗 ? 
$.[20 1 为 使 程序 R 能 对 8 个 字 节 的 键 码 而 不 是 3 个 字 节 的 键 码 排序 ,对 它 需 要 做 些 什么 改 
动 ? 假定 K, 的 诸 最 高 位 字 节 存储 在 单元 KEY+ i(1:5) 中 ,而 3 个 最 低位 字 节 就 像 目 前 这 样 存在 
单元 INPUT+ i(1:3) 中 ,在 进行 了 这 些 改动 之 后 ,该 程序 的 运行 时 间 是 多 少 ? 
6.[M24 ] 设 gyn(z)= pywz* ,其 中 Dis 是 在 一 个 随机 基数 排序 扫描 把 N 个 元 素 分 成 M 
个 堆 之 后 , 恰 出 现 有 上 个 空 堆 的 概率 。(a) 证 明 gyns1y(z)= gMn(z)+((l1- z)/M)g mn(z)o 
(b) 使 用 此 关系 式 求 出 这 个 概率 分 布 的 平均 值 和 方差 (作为 M 和 六 的 一 个 量 数 ) 的 简单 表达 式 。 
7.[20] 试 讨论 算法 R 和 基数 交换 排序 (算法 5.2.2R) 之 间 的 相似 性 和 区 别 。 
>8.[20] 正文 中 讨论 的 基数 排序 算法 假定 ,被 排序 的 所 有 键 码 都 是 非 负 的 , 当 这 些 键 码 是 以 
2 的 补 码 或 1 的 补 码 符号 表示 的 数 时 ,对 诸 算法 应 做 什么 改动 ? 
9.[20] 继续 习题 8, 当 键 码 是 以 带 正 负 号 的 量 表达 的 数 时 ,对 诸 算 法 应 做 些 什 么 改动 ? 
10.[30] 设计 一 个 使 用 链接 内 存 的 .有效 的 首先 处 理 最 高 位 数字 的 基数 排序 算法 ( 随 着 子 文 
件 长 度 的 减 小 , 减 小 M 并 对 非常 短 的 子 文件 使 用 一 个 非 基 数 的 方法 是 明智 的 )。 
11.[16] 表 1 中 所 示 的 16 个 输入 数 以 41 个 反 序 开始 ;在 排序 完成 之 后 ,当然 已 无 剩 下 的 反 
序 。 如 果 省 略 第 一 次 扫描 ,仅仅 对 十 位 和 百 位 数字 进行 基数 排序 , 则 在 文件 中 将 存在 多 少 个 反 序 ? 
如 果 省 略 第 一 次 扫描 和 第 二 次 扫描 , 则 将 存在 多 少 个 反 序 ? 
12.[24] (M.D. MacLaren) 假设 仅 将 算法 R 应 用 于 实际 的 键 码 的 前 P 位 数字 , 则 当 我 们 以 链 
接 的 次 序 来 读 它 时 ,这 个 文件 已 接近 于 有 序 了 。 但 是 其 前 已 位 数字 相同 的 那些 键 码 可 能 仍 是 无 
序 的 。 试 设计 一 个 算法 , 它 适 当地 重新 安排 诸 记 录 ,使 得 它们 的 键 码 都 成 为 有 序 的 ,Kl 夺 K, 夺 … 
过 Kw[ 提 示 ; 文 件 被 完全 排序 的 特殊 情况 出 现 于 习题 5.2-12 的 答案 中 ;有 可 能 不 影响 效率 而 将 它 
与 直接 插入 组 合 起 来 ,因为 在 文件 中 只 保留 了 少量 的 反 序 ]。 
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13.140 ] 请 实现 本 节 结 尾 处 提出 的 内 部 排序 方法 , 写 一 个 子 程序 , 它 用 O(N ) 个 时 间 单 位 对 
随机 数据 排序 , 且 仅 使 用 O (VN ) 个 附加 存储 单元 。 


可 以 在 两 次 扫描 中 排序 成 从 顶 到 底 递 增 的 次 序 A 2…JQK, 且 只 使 用 两 个 堆 作 为 中 间 存 储 : 把 这 
些 牌 面 朝 下 分 成 分 别 含 A29310 和 4J56QK78( 从 底 到 顶 ) 的 两 堆 ; 然 后 把 第 二 堆放 在 第 一 
堆 的 上 面 , 翻 过 来 使 这 些 牌 面 朝 上 ,把 这 些 牌 分 成 两 堆 ,A2345678,910JQK。 把 这 两 堆 组 
合 在 一 起 ,让 它们 面 朝 上 ,你 就 大 功 告 成 了 。 
证 明 上 边 的 纸牌 序列 不 可 能 在 两 次 扫描 中 排序 成 为 从 顶 到 底 的 递减 次 序 K QJ…2 A, 即 使 
你 使 用 多 达 三 个 堆 作 为 中 间 存 储 也 不 行 。( 处 理 必须 总 从 纸牌 的 顶部 进行 , 当 它 们 被 处 理 时 ,把 这 
些 纸牌 翻 成 面 朝 下 。 由 顶 到 底 相 当 于 图 中 的 自 右 到 左 )。 
15.LM25 ] 当 所 有 纸牌 必须 面 朝 上 而 不 是 面 朝 下 地 处理 时 ,考虑 习题 14 的 问题 。 于 是 ,可 用 
一 次 扫描 把 递增 次 序 转换 成 递减 次 序 。 问 需要 多 少 次 扫描 ? 
16. [25 ] 试 设计 把 mx 个 字母 的 字母 表 上 的 串 a1…a, ,排序 成 为 词典 次 序 的 一 个 算法 。 该 算 
法 的 总 运行 时 间 应 当 是 O(m + n+ NN), 其 中 N= |al|+…+ |a | 是 所 有 串 的 总 长 度 。 
17.[15] 在 由 Tamminen 提出 的 二 级 分 布 排序 (参见 定理 全) 中 ,为 什么 类 似 MacLaren 的 方法 
被 用 于 第 二 级 而 不 是 第 一 级 上 ? 
18. [HM26 ] 试 证 明定 理 T。 提示: 首先 证 明 当 把 MacLaren 的 分 布 + 插入 算法 应 用 于 对 于 0 
三 zx 世 1, 其 概率 密度 逊 数 满足 f(z) 三 B 的 独立 随机 键 码 时 ,平均 说 来 , 它 做 O(NB) 次 运算 。 
For sorting the roots and words 
we had the use of 1100 lozenge boxes, 
and used trays for the forms. 
一 GEORGE V. WIGRAM( 1843) 
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既然 我 们 已 经 分 析 了 内 部 排序 的 大 量 方法 ,现在 应 转 来 考虑 一 个 更 广泛 的 问 
题 :什么 是 进行 排序 的 最 好 方法 ? 能 否 对 可 能 达到 的 极 大 排序 速度 给 出 极限 、 使 得 
一 个 程序 员 无 论 如 何 灵 巧 也 不 能 超过 它 呢 ? 
当然 ,排序 并 没有 什么 最 好 的 方式 。 因 为 奉 想 达到 这 一 目的 ,首先 就 必须 精确 
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地 定义 什么 叫 “ 最 好 ” ,但 是 ,又 不 存在 一 种 最 好 的 方式 来 定义 “最 好 ”。 在 4.3.3 小 

节 、4.6.3 小 节 和 4.6.4 小 节 中 ,曾经 讨论 过 算法 理论 最 优 性 的 类 似 问题 ,其 中 考虑 

了 高 精度 的 乘法 和 多 项 式 的 计算 。 在 每 种 情况 下 ,都 有 必要 阐述 “最 好 的 "算法 的 一 

种 相当 简单 的 定义 ,以 便 给 出 使 问题 得 以 求解 的 充分 的 结构 。 而 且 在 每 种 情况 下 ， 

都 遇 到 了 如 此 困难 的 并 因此 尚未 完全 解决 的 有 趣 问题 。 对 于 排序 来 说 情况 也 是 这 
样 , 虽 已 经 获得 了 某 些 非常 有 趣 的 发 现 , 但 仍然 有 许多 困难 的 问题 尚未 解决 。 

关于 排序 固有 的 复杂 性 的 研究 通常 针对 如 下 一 些 问 题 , 即 当 把 ”个 项 目 排序 

时 ,或 者 把 mx 个 项 目 和 >” 个 项 用 合并 时 ,或 者 选择 一 个 未 编 序 的 n 个 项 目 集合 的 第 

t 个 最 大 者 时 ,我 们 如 何 把 对 诸 键 码 的 比较 次 数 极 小 化 ? 53.3.1 小 节 、S.3.2 小 石和 

5.3.3 小 节 泛 泛 地 讨论 了 这 些 问 题 , 而 $.3.4 小 节 则 在 有 趣 的 限制 下 讨论 了 类 做 的 

问题 ,其 中 所 做 的 限制 是 :比较 的 形式 必须 事先 予以 基本 固定 。 一 些 同 最 优 排序 有 

关 的 其 它 类 型 的 有 趣 的 理论 问题 ,出 现在 5.3.4 小节 的 习题 中 ,以 及 在 外 部 排序 的 

讨论 中 (5.4.4 小节,5.4.8 小 节 和 5.4.9 小 节 )。 

As soon as an Analytical Engine exists, 

it will necessarily guide the {future course of the science. 

Whenever any result 1s sought by its aid, 

the question will then arise 一 

By what course of calculation can these 

results be arrived at by the machine 

in the shortest time? 

—CHARLES BABBAGE( 1864) 


5.3.1 极 少 比 较 排 序 


将 2” 个 元 素 排 序 所 需 的 键 码 比较 要 极 小 次 数 ,显然 为 0, 因为 我 们 已 经 知道 基 
数 方法 不 做 任何 比较 。 事 实 上 ,有 可 能 编写 出 能 进行 排序 的 MIX 程序 ,使 得 它们 不 
包含 任何 条 件 转 移 指 令 ( 见 本 章 开始 的 习题 5 一 8)! 我 们 也 已 经 了 解 了 若干 排序 方 
法 ,它们 实质 上 是 以 键 码 的 比较 为 基础 的 ,然而 它们 的 运行 时 间 实 际 上 取决 于 其 它 
的 因素 ,如 数据 移动 、 夭 记 操 作 等 。 

因此 ,计算 比较 次 数 显 然 不 是 测量 排序 方法 有 效 性 的 惟一 方式 。 但 是 ,仔细 地 
研究 比较 次 数 ,无 论 如 何 是 一 桩 乐事 ,因为 这 个 课题 的 理论 研究 会 给 我 们 带 来 大 量 
的 洞察 排序 过 程 本 性 的 有 用 知识 ,也 会 帮助 我 们 增进 在 其 它 情况 下 解决 可 能 碰 到 的 
更 为 普遍 的 问题 的 能 力 。 

为 了 排除 完全 不 做 比较 的 基数 排序 方法 ,如 同 本 章 开 始 时 所 讨论 的 那样 ,我 们 
将 把 讨论 局 限于 仅仅 以 键 码 之 间 的 一 个 抽象 线性 次 序 关 系 "“< "为 基础 的 排序 技术 。 
为 了 简便 起 见 也 把 讨论 限制 在 不 同 的 键 码 的 情况 ,从 而 对 任何 K; 和 天 ; 的 比较 ,只 
有 两 种 可 能 的 结果 :或 者 K; > K;, 或 者 K;<K;( 至 于 把 本 理论 扩充 到 允许 有 相等 键 
码 的 一 般 情况 ,见习 题 3 一 12。 如 果 对 于 基于 比较 的 方法 没有 限制 ,对 于 对 整数 进 
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行 大 序 所 需要 的 最 坏 和 情况 的 运行 时 间 的 上 了 服 , 请 参见 Fredman 和 Willard,J]. Com- 
puter and Syst. Sci. 47 (1993),424~436,Ben-Amram 和 Galil,J. Comp. Syst. Sci. 54 
(1997) ,34S$ 一 370 和 Thorup ,SODA 9 (1998) ,$50 一 SSS ) 。 

通过 比较 进行 排序 的 问题 ,也 可 以 其 它 等 价 的 方式 来 加 以 表达 。 如 给 定 ”个 不 
同 的 夸 码 和 一 台 天 平 , 可 以 提出 ,当天 平 的 每 个 盘子 仅 能 容纳 一 个 硅 码 时 , 按 重 量 的 
大 小 顺序 完全 排列 这 些 夸 码 所 需要 的 最 少 称 重 次 数 问题 。 又 或 者 ,给 出 一 项 锦标 赛 
中 的 一 组 ”个 选手 ,可 以 问 及 ,假定 选手 们 的 实力 可 以 线性 地 排序 (没有 平局 ) 旱 , 足 
以 把 所 有 竞赛 者 排名 次 的 最 少 比 赛 次 数 的 问题 。 

所 有 满足 上 述 限 制 的 ”个 元 素 的 排序 方法 ,都 可 信 助 如 图 34 所 示 的 扩展 二 又 
树 结构 来 表示 。 每 个 内 部 节点 (画作 一 个 圆圈 ) 包 含 两 个 下 标 “i:)" ,表示 K; 同 天 | 
的 一 个 比较 。 这 个 节点 的 左 子 树 表 示 当 K; < 天; 时 所 需 采 取 的 动作 ,而 右 子 树 则 表 
示 当 K; > K; 时 所 要 采取 的 动作 。 该 树 的 每 个 外 部 节点 (画作 一 个 方 框 ) 包 含 11,2， 
…,n| 的 一 个 排列 a14a，…a, ,表示 已 经 建立 起 次 序 

K, < Ks, <…< Ka 

这 一 事实 (如 果 我 们 考察 从 根 到 这 个 外 部 节点 的 路 径 , 则 对 于 1 三 i<n 的 nn 一 1 个 关 
系 K。< K。, 中 的 每 一 个 ,都 将 是 这 条 路 径 上 某 个 比较 ai:ai+1 或 a;41:ai 的 结果 )。 

因此 图 34 表示 首先 比较 K1 和 K, 的 一 个 排序 方法 ;如 果 天 1 > 天 , 则 它 束 ( 通 
过 右 子 树 ) 去 进行 K, 同 K; 的 比较 ,接着 如 果 KK,< Ks, 则 它 就 比较 K! 和 K;; 最 
后 ,如 果 Ki > K;, 便 知道 了 K < K;< Ki。 一 个 实际 的 排序 算法 通常 也 将 在 这 个 
文件 中 移动 键 码 ,但 我 们 在 这 里 仅 对 比较 感 兴趣 ,所 以 忽略 了 所 有 的 数据 移动 。 在 
这 株 树 中 ,K; 同 开 ; 的 比较 总 是 意味 着 原来 的 键 码 K; 同 K; ,而 不 是 在 这 些 记 录 已 经 
被 重 排 之 后 当前 可 能 占有 文件 的 第 i 个 和 第 ; 个 位 置 的 键 码 。 





第 3 导 
图 34 对 3 个 元 素 排 序 的 一 株 比 较 树 图 35 多 余 比 较 的 例子 


有 可 能 做 了 多 余 的 比较 ;例如 ,在 图 35 中 ,没有 理由 比较 3:1, 因 为 Kl! < ,和 和 


K,<K; 意味 着 天 ,< K;。 没 有 排列 能 对 应 于 图 35 中 节点 6 的 左 子 树 ,所 以 算法 
的 该 部 分 将 永 不 执行 ! 由 于 我 们 的 兴趣 在 于 把 比较 的 次 数 极 小 化 , 故 可 以 假定 没有 
172 。 


5.3 最 优 排序 





做 多 余 的 比较 ;因此 有 一 个 扩展 的 二 叉 树 结构 ,其 中 每 个 外 部 节点 都 对 应 一 个 排列 。 
输入 键 码 的 所 有 排列 都 是 可 能 的 ,而 且 每 个 排列 都 定义 从 根 到 外 部 节点 的 惟一 路 
径 ;由 此 推 知 ,在 一 株 对 7 个 元 素 进 行 比较 而 没有 多 余 比 较 的 比较 树 中 , 恰 有 7 1 个 
外 部 节点 。 


最 好 的 最 坏 情 况 ” 目 然 出 现 的 第 一 个 问题 ,是 找 出 使 所 做 的 最 大 比较 次 数 为 极 
小 的 比较 树 ( 后 面 将 考虑 平均 的 比较 次 数 )。 

令 S(n) 为 足以 将 个 元 素 排 序 的 极 小 比较 次 数 。 如 果 一 个 比较 树 的 所 有 内 
部 节点 都 在 <& 的 层次 内 , 则 显然 在 这 树 中 至 多 可 以 有 2” 个 外 部 节点 。 因 此 , 令 & 
=S(2 ), 就 有 


n! < 2 
由 于 S(n) 是 一 个 整数 ,我 们 可 以 重 写 这 个 公式 以 得 到 下 界 
S(n) 宇 [lgn! | (1) 
注意 , 按 斯 特 林 近似 公式 
[lgn!|= nlgn ~ nlin2+3lg n+ O(1) (2) 


所 以 大 约 需 要 nlgn 次 比较 。 

关系 (1) 通 常 称 为 信息 论 下 限 , 因 为 信息 论 专家 将 说 在 排序 过 程 中 获得 了 lgn1 
个 “比特 的 信息 ”; 每 次 比较 至 多 产生 一 个 “比特 的 信息 ”。 像 图 34 那样 的 树 也 称 做 
“征询 表 ” ,它们 的 数学 性 质 在 Claude Picard 的 书 Théorie des Questionnaires (Paris: 
Gauthier-Villars,1965 ) 中 已 进行 过 探讨 。 

在 我 们 所 见 过 的 所 有 排序 方法 中 ,需要 最 少 比较 的 3 个 方法 是 :二 又 插入 (参见 
5.2.1 小 节 ), 树 选择 (参见 5.2.3 小 节 ), 以 及 直接 两 路 合并 (参见 算法 5.2.4L)。 由 
习题 1.2.4-42 容 易 看 出 ,二 又 插入 的 极 大 比较 次 数 是 


B(n) = Vflggl= nflgnl- 2 +41 (3) 


而 在 习题 5.2.4-14 中 给 出 了 两 路 合并 中 的 极 大 比较 次 数 。 在 5.3.3 小 节 中 ,我 们 
将 看 到 ,取决 于 树 是 怎样 建立 的 , 树 选择 或 者 有 和 二 叉 插入 相同 的 比较 的 上 限 , 或 者 
有 和 两 路 合并 相同 的 比较 的 上 限 。 在 所 有 3 种 情况 下 ,都 达到 了 nlgn 的 渐 近 值 ;把 
S(n) 的 下 限 和 上 限 结合 起 来 ,就 证 明了 





= 1 (4) 


于 是 我 们 有 了 一 个 S(n) 的 近似 公式 ,但 是 还 希望 得 到 更 精确 的 信息 。 下 表 给 
出 了 对 于 小 的 n ,上 述 量 的 准确 值 。 
n=1] 2345 6 7 8 .910 11 12 13 14 15 16 17 
[lInn! 1|=0 1 3 5 7 10 13 16 19 22 26 29 33 37 41 45 49 
B(n)=0 1 3 58 11 14 17 21 25 29 33 37 41 45 49 54 


" 173 : 


第 S 章 排序 





L(n)=0 1 3 59 11 14 17 25 27 30 33 38 41 45 49 65 

这 里 B(n) 和 上 (nn ) 分 别 对 应 于 二 叉 插 入 和 二 路 表 合 并 。 对 所 有 的 nn, 可 以 证 明 
B(n) 研 L(n)( 见 习题 2)。 

从 上 表 可 以 看 出 S(4)=5, 但 S(5) 可 以 是 7 或 8。 这 把 我 们 带 回 到 5.2 节 开 始 
处 所 叙述 的 一 个 问题 :什么 是 对 $ 个 元 素 进行 排序 的 最 好 方法 ?能 否 仅 仅 使 用 7 次 
比较 ,对 5 个 元 素 进 行 排序 ? 

回答 是 肯定 的 ,但 找 出 这 7 步 过 程 并 不 特别 容易 。 开 始 时 ,就 像 用 合并 对 4 个 
元 素 排 序 一 样 ,首先 比较 Ki:K,, 接 着 KK;: Ks ,然后 把 每 对 的 较 大 者 拿 来 比较 ,这 就 


产生 了 一 个 可 以 被 表示 为 
Ly (5) 


的 图 式 , 以 示 a<b<4d 和 c<4a( 用 这 种 有 向 图 来 表示 元 素 之 间 的 已 知 次 序 关系 ,是 
方便 的 。 当 且 仅 当 在 该 有 向 图 中 有 一 条 从 x 到 yy 的 路 径 时 z 小 于 y)。 这 时 ,我 们 -4 
把 第 $ 个 元 素 K5=e 插入 到 |a,6,d|} 当 中 的 适当 位 置 ,只 和 需要 比较 两 次 ,因为 可 以 
首先 同 5b 进行 比较 ,而 后 同 a 或 4 进行 比较 ,这 有 下 列 4 种 可 能 : 


b d e b d b e qd b d ee 
/A 人 , o , 性 下 
而 且 在 每 种 情况 下 ,都 可 以 以 另 两 次 比较 ,把 < 插入 小 于 4 的 剩 下 的 元 素 当 中 。H. 
B.Demuth 首先 发 现 了 对 5 个 元 素 排序 的 这 两 种 方法 [Ph.D.thesis,Stanford Univer- 
sity(193S6) ,41 一 43] 。 
合并 插入 ”Lester Ford,Jr 和 Selmer Johnson 发 现 了 上 述 方法 的 一 个 邻 人 满意 
的 推广 。 由 于 它 包含 了 合并 及 插 人 的 各 一 部 分 ,所 以 我 们 称 它 为 合并 插入 。 例 如 ， 


考虑 对 21 个 元 率 的 排序 问题 。 开始 先 比 较 10 对 Ki ， K,, K3: Ks, ,天 19: 天 20， 然 
后 对 这 些 对 中 10 个 较 大 元 素 进行 排序 ,并 利用 合并 插入 。 结 果 , 得 到 类 似 于 (5) 的 


图 形 
AAAIF A AA I FS (7) 


bl bp? b3 ba bs be b7 bg bo blo bli 
下 一 步 是 在 {61,a1,az| 中 插入 53, 然 后 把 5b, 插入 到 小 于 a, 的 其 它 元 素 当 中 ;得 到 
图 形 ,上边 一 行 的 元 素 称 为 主 链 。 利 用 3 次 比较 (首先 55 同 c4 进行 比较 ,然后 与 c， 
或 co 比 ,等 等 ) 可 以 把 65 插入 到 主 链 中 的 适当 位 置 。 然 后 54 可 以 用 另外 3 个 步骤 
移入 主 链 中 ,结果 得 到 (9)。 
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人 (8) 





FIFIF, 
be by bs bo bio pi 
下 一 步 是 关键 的 ;知道 该 做 什么 吗 ? 仅仅 利用 4 次 比较 ,我 们 就 把 5b11( 而 不 是 
6) 插入 到 主 链 。 然 后 ,同样 把 510,65o,bg,57,be( 以 这 个 次 序 ) 插 入 到 主 链 中 的 适当 
位 置 , 每 个 至 多 使 用 4 次 比较 。 
这 里 涉及 的 对 比较 次 数 的 仔细 计算 ,说明 21 个 元 素 至 多 用 10+ S(10)+2+2 
+t3+3+4+4+4+4+4+4=66 步 即 可 排序 。 由 于 
26 < 21! < 249 
我 们 也 知道 ,在 任何 情况 下 , 少 于 66 次 将 是 不 可 能 的 ;因此 
S(21) = 66 (10) 
(二 又 插入 要 求 74 次 比较 )。 
一 般 地 说 ,n 个 元 素 的 合并 插入 按 如 下 方式 进行 : 
i) 对 于 | ”/2 | 个 不 相交 的 元 素 对 ,进行 逐 对 比较 (如 果 n 为 奇数 , 则 剩 下 一 个 )。 
ii) 通 过 合并 插入 ,将 步骤 i) 中 找到 的 Ln/2J 个 较 大 的 数 进行 排序 。 
ii) 像 在 (7) 中 那样 命名 元 素 al az, al bp02 02 其 中 aa 入 … 
过 aj ,pl 且 对 于 1 过 i 二 Ln/2.,6b; 二 a;; 称 b1 和 诸 a 为 "主键 码 ”。 以 下 列 次 序 用 二 又 
插入 把 诸 6 插入 到 主 链 中 ,其 中 7 >| nf2|1: 
b3,62; bs,b4; 011010，063 OO (11) 
我 们 希望 定义 序列 (zj ,tp ,t,t4，)= 二 (1,3,5,11,…), 它 以 这 样 一 种 方式 出 现 
于 (11) 中 , 即 6 ,6，,，,…,b， ,+1 中 的 每 一 个 都 可 以 用 至 多 次 比较 插入 到 主 链 中 。 


推广 (7) ,(8) 和 (9) ,我 们 得 到 图 形 


X| X2 X21 tl il+2 4 人 一 1 





p_i+1 bir-it+2 bre-i 名 
其 中 达到 并 包括 ai ， 的 主 链 包含 2 加 -1 十 (去 一 如 -1 一 1 ) 个 元 素 。 这 个 数 必 然 小 于 


24 ;我 们 最 好 的 办 法 是 把 它 置 成 等 于 2* -1, 使 得 
te_1 t+ t;, = 2* (12) 
由 于 旭 =1, 为 了 方便 起 见 我 们 可 以 置 to。=1, 通 过 对 一 个 几何 级 数 求 和 得 到 


tr 一 2* 一 te-_1 二 2* 一 2 十 tp-_-2 一 “一 
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2 — 2 1 + et (1)*20 = (2411 4+ (~ 1)*)/3 (13) 
(奇怪 的 是 ,这 同一 序列 出 现在 我 们 为 计算 两 个 整数 的 最 大 公 因 子 的 一 个 算法 分 析 
中 ,参见 习题 4.5.2-36。) 
令 F(n) 是 通过 合并 插入 将 ”个 元 素 排序 所 需要 的 比较 次 数 ,显然 ， 
Fl(n) =Ln/2j + F(xn/2) + G(x/21) (14) 
其 中 G 表示 包含 在 步骤 ii) 中 的 工作 量 。 如 果 ti _ | 过 m 志 名, 则 通过 部 分 求 和 我 们 
有 


G(m) = Sj -61) + km -t= km (tottit+t, 1) (15) 








置 
we = totitit + ti =|2*+1/3] (16) 
使 得 (two, wy tw, vw3, wa )= (0,1,2,5,10,21,.…)。 习题 13 证 明 
F(n) 一 F(n 一 1)= 有 ” 当 且 仅 当 Wh < NZ wr (17) 
并 且 后 一 条 件 等 价 于 
24+1 Fk+2 
3 < 7 委 3 
或 者 &+1<lg372 二 &+2 
因此 
F(n) ~ F(a -1 =| ga (18) 


(这 个 公式 来 自 A. Hadian)[Ph.D. thesis, Univ. of Minnesota(1969) ,38 一 42])。 由 此 
得 出 ,F(n) 有 相当 简单 的 表达 式 
F(n) = >) lg je| (19) 
k=!1 
世 十 分 类 似 于 二 又 插入 的 对 应 公式 (3)。 这 个 和 的 “封闭 形式 ”出 现 于 习题 14 中 。 
利用 等 式 (19) 不 难 构造 F(n ) 的 一 个 表 ; 我 们 有 
n= 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 
llgn!ll= 0 1 3 5 7 10 13 16 19 22 26 29 33 37 41 45 49 
Fl(n)= 0 1 3 5 7 10 13 16 19 22 26 30 34 38 42 46 50 
n= 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 


llgn!|= 53 57 62 66 70 75 80 84 89 94 98 103 108 113 118 123 
F(n)= 54 58 62 66 71 76 81 86 91 96 101 106 111 116 121 126 


注意 对 于 1 委 ” 委 11 和 20 委 2” 委 21,F(z)=Pig n! 1, 所 以 我 们 知道 对 于 这 些 ”, 合 
并 插入 是 最 优 的 : 
S(n)= [lgn!l= F(n) 对 于 n= 1,…,11,20 和 21 (20) 
Hugo Steinhaus 在 他 的 精 典 著作 (Matpematical Snapshots (Oxford University 
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Press,1950) 第 2 版 的 38 一 39 页 中 提出 了 求 S(n) 的 问题 。 他 描述 了 二 叉 插入 的 方 
法 对 个 对 象 排序 的 最 好 方法 是 : 先 将 前 n 一 1 个 排 好 序 ,再 考虑 第 ”个 ;并 
日 ,他 还 推测 ,一 般 情况 下 ,二 叉 插 入 是 最 优 的 。 几 年 后 [Calcutta Math. Soc. Golden 
Jubilee Commemoration 2(1959) ,323 一 327] 他 做 报告 时 说 ,他 的 两 个 同事 S. Trybu- 
la) 和 P. Czen, “最近” 已 否定 了 他 的 推测 ,并 且 已 经 确定 了 nn 碾 11 时 的 S(n)。Try- 
bula 和 P. Czen 可 能 已 经 独立 地 发 现 了 合并 插入 的 方法 ,但 发 表 它 的 却 是 不 久 后 
Ford 和 Johnson[AMM 66(1959) ,387 一 389j。 

在 发 现 了 合并 插入 之 后 ,第 一 个 未 知 的 S(n) 值 是 S(12)。 表 1 显示 12! 十 分 
接近 于 229 ,所 以 不 大 可 能 只 用 29 步 对 12 个 元 素 进 行 排序 。 因 此 Mark Wells 进行 
了 一 次 穷 举 查找 (在 一 台 ManiacI 计算 机 上 大 约 花 了 60h), 他 发 现 S(12)= 30 
[Proc. IFIP Congress 65 2(1965),497~ 498;Elements of Combinatorial (Pergamon， 
1971) ,213 一 215]。 于 是 证 明 合并 插 和 人 过程 对 于 n= 12 也 是 最 优 的 。 

表 1 阶乘 值 的 二 进 制 表示 





〈1)2 = 11 

(10),=2! 

(110),=31 

(11000),=41! 

(1111000),= 5! 

(1011010000),=6! 

(1001110110000),=7! 

(1001110110000000),=8! 

(1011000100110000000)2 = 91! 
(1101110101111100000000),= 101 
(10011000010001010100000000),= 111 
(11100100011001111110000000000),= 121 
(101110011001010001100110000000000),= 13! 
(1010001001100001110110010100000000000),= 14! 
(10011000001110111011101110101100000000000), = 151 
(100110000011101110111011101011000000000000000) = 161 
(1010000110111111011101110110011011000000000000000),= 17! 
(10110101111101110110011001010011100110000000000000000),= 18! 
(110110000001010111001001100000110100010010000000000000000)， = 191! 
(10000111000011011001110111110010000010101101000000000000000000), = 20! 


* 一 个 较 深入 的 分 析 ”为 了 更 仔细 地 研究 S(n), 我 们 更 严密 地 考察 例如 (5 ) 那 
样 的 偏 序 图 式 。 在 进行 了 若干 次 比较 之 后 ,可 以 借助 于 一 个 有 向 图 来 表示 已 经 获得 
的 知识 。 鉴 于 < 关系 的 传递 性 ,这 个 有 向 图 不 包含 回路 ,所 以 可 以 把 所 有 的 有 四 边 
都 画 成 从 左 到 右 ;因此 不 妨 去 掉 图 中 的 箭头 。 于 是 (5) 变 为 

bp dd 


/7 (21) 


Q C 





如 果 G 是 这 样 一 个 有 向 图 , 令 T(G) 是 同 G 一 致 的 排列 的 数目 , 即 ,把 整数 11,2， 
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… ,nj1 赋 了 予 G 各 顶点 的 方式 种 数 , 使 得 在 G 中 每 当 有 x 一 y 时 ,顶点 x 上 的 数 均 小 
于 顶点 > 上 的 数 。 例 如 , 同 (21) 一 致 的 一 种 排列 是 wa=1,5=4,c=2,d=5,e=3。 
在 5.1.4 小 节 中 已 经 对 各 种 G 研究 了 T(G), 其 中 我 们 发 现 , T(G ) 表 示 G 可 以 被 
拓扑 地 排序 的 方式 种 数 。 

如 果 G 是 在 进行 了 k 次 比较 之 后 可 以 得 到 的 个 元 素 的 一 个 图 ,我 们 定义 G 
的 效率 为 

n! 
ET CG) (22) 
(这 个 思想 来 自 于 Frank Hwang 和 Shen Lin)。 严格 地 说 ,效率 并 不 单独 是 图 G 的 
一 个 也 数 , 它 依 赖 于 一 个 排序 过 程 中 得 到 G 的 方式 ,但 是 在 叙述 时 不 妨 略 去 这 一 
尽 。 在 元 素 i 和 ; 之 间 进 行 了 另 一 次 比较 之 后 ,得 到 两 个 图 G; 和 G, ,一 个 是 对 于 
情况 K;< K; 的 ,一 个 是 对 于 情况 K; > K; 的 。 显 然 
T(G) = T(G1) + T(G,) 

如 果 TT(Gi) 宇 T(G,), 则 有 


E(G)= 





T(G) 2T(G) 

ni! E(G)T(G) 
E(G) = 2:+t1T(G1) 2T(Gi) 

因此 ,每 次 比较 导致 了 一 个 具有 更 小 或 相等 效率 的 图 ;不 可 能 通过 做 进一步 的 比较 
当 G 全 然 没 有 有 向 边 时 ,有 有 =0 及 T(G)=n!1, 所 以 初始 的 效率 是 1。 另 一 
个 极 病 , 当 G 是 表示 排序 最 后 结果 的 一 个 图 时 ,G 看 起 来 像 一 条 直线 ,日 T(G)= 
1。 于 是 ,例如 ,如 果 要 寻找 一 个 排序 过 程 ,在 7 步 或 更 少 的 步骤 内 对 5 个 元 素 排 序 ， 
则 必须 得 到 其 效率 为 5! /(2’x1)=120/128=15/16 的 线性 图 一 一 一 一。 由 此 得 


出 在 排序 过 程 中 出 现 的 所 有 图 必然 有 之 它 的 效率 ;如 果 出 现任 何 低 效率 的 图 , 则 至 


< E(G) (23) 


少 它 的 后 裔 之 一 也 将 是 低 效 率 的 ,而 且 最 终 将 达到 其 效率 < 护 的 一 个 线性 图 。 一 般 


地 说 ,这 个 论证 证 明 ,所 有 对 应 于 ”个 元 素 排序 过 程 的 树 节 点 的 图 ,都 必然 有 之 
n! /2 的 效率 ,其 中 /! 是 树 的 层 数 。 这 是 证 明 S(n) 宇 Tlg n1 1 的 另 一 个 方法 ,尽管 
这 个 论证 同 我 们 前 面 所 说 的 实际 上 并 没有 多 少 不 同 。 

图 (21) 的 效率 为 1, 因 为 了 (G)=15, 并 且 G 已 经 在 3 次 比较 中 得 到 。 为 了 看 
看 下 次 应 当 比 较 什么 顶点 ,可 以 形成 比较 短 阵 
d 


a b C e 
a (0 1S 10 15Ss 11 
bp |I0 0 3 1S 9 
C(0) = c |5 10 0 15 9 (24) 
d |0 0 0 0 3 
e \4 8 6 12 0 
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其 中 C; 是 通过 把 弧 ;>) 加 到 G 得 到 的 图 Gi 的 (Gil)。 例 如 ,如 果 比 较 天 - 和 KK,， 
则 同 G 相 一 致 的 15 个 排列 分 裂 成 K,< K. 的 C=6 个 和 K.<K, 的 C=9 个 。 后 
一 个 图 的 效率 是 15/(2x9) = 说 < 这 ,所 以 它 不 可 能 导致 一 个 7 步 排序 过 程 。 下 一 
个 比较 必然 是 K: K,, 以 便 保持 之 据 的 效率 。 

当 考虑 图 的 连通 分 量 时 ,效率 的 概念 是 特别 有 用 的 。 例 如 考虑 图 


a b d e 
(7 = 
C f 9 
它 有 两 个 分 量 
a b d e 
fe 
人 f 9 


由 于 没有 连接 G 和 G”“ 的 有 向 边 , 所 以 它 由 完全 在 G 之 内 进行 的 某 些 比较 和 完全 在 
G” 之 内 进行 的 其 它 比 较 形成 。 一 般 地 说 ,假定 G= GG 没有 G 和 G 之 间 的 有 加 
边 ,其 中 G 和 G“ 分 别 有 n 和 mn 个 顶点 , 容 饭 得 出 


T(G) = Wi " jr(G)T(6”) (25) 


因为 G 的 每 个 一 致 的 排列 都 通过 选择 个 元 素 赋 给 G ,然后 独立 地 在 G 和 G” 之 

内 构造 一 致 的 排列 而 得 到 。 如 果 在 G 内 已 经 进行 了 k 次 比较 ,在 G 内 进行 了 有 次 
比较 , 则 有 基本 的 结果 

E(G) = Do) - jG . jr - E(G')E(G’) (26) 

说 明 一 个 图 的 效率 以 一 种 简单 的 方式 同 其 分 量 的 效率 有 关 。 因 此 ,我 们 可 以 限于 考 
虑 仅 有 一 个 分 量 的 图 。 

现在 假定 G 和 G” 是 一 个 分 量 的 图 ,并 且 假 设 要 通过 比较 G 的 一 个 顶点 x 和 

CG 的 一 个 顶点 y 而 把 它们 钩 到 一 起 。 要 知道 这 个 效率 是 什么 ,为 此 ,需要 一 个 可 以 





通过 
p q 
| < (27) 
mm mm 
表示 的 函数 ,定义 为 同 图 
dl CC2 ap am 
、 (28) 
bp! b; bo bn 
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一 致 的 排列 的 数目 。 于 是 [了 <] 等 于 [”””] 乘 以 一 个 概率 数 ,该 概率 数 是 一 个 
m 个 数 集合 的 第 bp 个 最 小 者 ,小 于 独立 地 选择 的 n 个 数 集合 的 第 a 个 最 小 者 的 概 
率 。 习题 17 证 明 ,可 以 借助 于 二 项 式 系数 以 两 种 方式 表达 [ < ? 


作 > 
O&Kk<g 





m 7 m= Dp pbp—-1 
= = = 
|” q+m ee 7 (29) 
PEIEm ng 家 二 二 2 





(顺便 说 一 句 , 从 代数 上 看 来 ,如 下 一 件 事 决 不 是 明显 的 ;这些 二 项 式 系数 乘积 的 两 
个 和 居然 是 相等 的 ) 。 我 们 也 有 公式 


I a0) 
| G3 


edd seth le tell dl 


m nn ME 一 7 m 
(32) 
为 了 确定 起 见 ,现在 考虑 两 个 图 


Y!1 Y3 
Tl Ts (33) 


通过 直接 枚 举 ,不 难 证 明 T(G )=42 和 TT(G”)=5; 所 以 如 果 G 是 以 G 和 0G” 作为 
分 量 的 11 个 顶点 的 图 , 则 按 等 式 (25) ,我 们 有 T(G)= [42.5=69300。 如 果 要 


知 所 对 于 每 个 ; 和 j) 有 和 多少 x;< y;, 这 是 得 列 出 的 惊人 的 排列 数目 。 但 是 ,这 个 计算 
本 以 在 不 到 一 个 小 时 之 内 用 手 算出 ,如 下 :构造 矩阵 A(G ) 和 A(G”), 其 中 Ai 是 使 
得 zx;( 或 y;) 等 于 的 G'( 或 G ) 的 一 致 排列 的 个 数 。 于 是 ,其 中 zx; 小 于 y; 的 G 的 


排列 个 数 为 A(G') 的 (i, bp) 元 素 乘 以 17 < ?| 再 乘 以 A(G”) 的 (j,g) 元 素 , 对 1 志 p 
过 7 和 1 过 g 过 4 进行 求 和 。 换 言 之 ,我 们 要 构造 矩阵 乘积 A(G ): 上 L.A(G”)7, 其 中 
Ba | 和 总 条 
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21 16 5 0 0 0 01f210 294 322 329 
0 5 10 12 10 5 0|1126 238 301 325 ) 3 0 0 
21 16 3 0 0 0 0 70 175 265 3135 ) 2 0 1 
0 0 12 18 12 0 0 35 115 213 295 1 0 2 2|= 
0 0 5 16 21 15 65 155 260 
0 0 3 2 


0 0 
0 S$ 10 12 10 S$ 0 S 29 92 204 
0 0 0 0 和 4 16 21 1 8 36 120 
48169 42042 66858 64031 
22825 16005 53295 46475 
48169 42042 66858 64031 
22110 14850 54450 47190 
$269 2442 27258 21131 
22825 16005 53295 46475 
5269 2442 27258 21131 
于 是 钧 起 G 和 G” 的 “最 好 "方法 是 把 zi 同 y, 加 以 比较 ; 当 xz1<y, 时 有 42042 种 情 
况 , 当 x1>y, 时 有 69300 一 42042=27258 种 情况 (由 对 称 性 ,我 们 也 可 以 比较 zs 和 
,zs 和 分 ;或 zy 和 y3, 导 出 实际 上 相同 的 结果 )。 对 于 x1< y 得 到 的 图 效率 为 
69300 , ， 
ga084 EC )E(G ) 
它 不 是 太 好 的 ;因此 ,在 任何 排序 方法 中 把 G 和 6G“ 钩 起 来 大 概 是 一 种 坏 的 想法 ! 这 
个 例子 的 要 点 是 ,无 须 多 余 的 计算 就 能 够 做 出 这 样 一 个 判断 来 。 

这 些 思 想 可 用 来 独立 地 验证 Mark Wells 关于 S(12) = 30 的 证 明 。 从 包含 一 个 
顶点 的 图 开始 ,可 以 重复 地 尝试 用 这 样 一 种 方式 对 图 G 之 一 或 对 G 中 G (一 对 图 
分 量 G 和 G”) 增 加 一 个 比较 ,使 得 两 个 由 此 得 到 的 图 只 有 12 个 或 更 少 的 顶点 , 且 效 
率 宇 121 /239~0.89221。 只 要 这 是 可 能 的 ,就 取 所 得 到 的 最 低 效 率 的 图 ,并且 把 写 
加 到 我 们 的 集合 中 ,除非 两 个 图 之 一 同 构 于 和 集合 中 已 有 的 一 个 图 。 如 果 得 到 的 两 个 
图 有 同样 的 效率 , 则 就 任意 地 选择 它们 之 一 。 一 个 图 可 以 由 它 的 对 偶 ( 通 过 颠倒 次 
序 得 到 ) 来 标识 ,只 要 我 们 考虑 既 把 比较 加 到 G“ 引 G" 上 ,也 加 到 G 由 对 偶 (G ) 上 。 
36 所 示 为 以 这 一 方式 得 到 的 一 些 最 小 的 图 及 它们 的 效率 。 

在 这 个 过 程 结 束 之 前 ,由 计算 机 恰好 生成 了 1649 个 图 。 由 于 得 不 到 图 
一 ”一 一 一 , 故 可 以 得 出 结论 ,S(12) >29。 看 来 可 以 通过 类 似 实验 ,花费 
不 太 长 的 时 间 以 推导 出 S(22) >70, 因 为 22! /2” 守 0.952 表明 必须 有 极 高 的 效率 
才能 在 70 步 之 内 进行 排序 (在 用 12 个 或 更 少 的 顶点 建立 的 1649 个 图 中 , 仅 有 91 
个 有 这 样 的 高 效率 )。 

Marcin Peczarski[Lecture Notes in Comp. Sci. 2461(2002),785 一 794] 扩 展 了 Walls 的 
方法 ,并 证 明 S(13) = 34; 因 此 在 这 种 情况 下 合并 插入 也 是 最 优 的 。 直 觉 地 ,似乎 总 有 
一 天 能 够 证 明 S(16)< F(16) ,因为 比 起 通过 S(10) 次 比较 对 10 个 元 素 排序 ,然后 用 
二 叉 插 入 逐个 插入 其 它 6 个 元 素来 ,F(16) 所 需 的 比较 次 数 决 不 会 更 少 。 必 然 存 在 
一 种 办 法 来 改进 这 样 一 种 方法 ! 但 是 现在 ， 确 定 地 知道 F(n) 是 非 最 优 的 最 小 情况 蚌 
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Cl e@1 C) ee—e | om 5 


图 36 在 S(12)>29 的 一 个 长 证 明 的 最 初 几 步 中 ,得 到 的 一 些 图 和 它们 的 效率 


n 三 47: 在 通过 F(5) + 下 (42) = 178 次 比较 对 5 个 和 42 个 元 素 进行 排序 之 后 ,使 用 由 
J .Schulte Monting[Theoretical Comp. Sci. 14(1981) ,19 一 37] 给 出 的 方法 ,我 们 可 以 以 22 个 
进一步 的 比较 ,来 合并 这 些 结果 ;这 就 击败 了 F(47) = 201(Glenn K. Manacher[JACM 26 
(1979),441 一 456j] 以 前 已 经 证 明 , 由 n=189 开始 ,有 无 穷 多 个 2 存在 ,使 S(n)<F(n))。 


比较 的 平均 次 数 至今 已 经 考虑 了 一 些 过 程 ,在 它们 的 最 坏 情 形 尚 可 这 个 意义 
下 它们 是 最 好 的 ; 换 句 话说 ,已 经 寻 道 过 “ 极 小 化 极 大 ”的 过 程 ,对 于 比较 的 极 大 次 数 
而 言 它 取 极 小 。 现 在 让 我 们 寻找 一 个 “ 极 小 化 平均 值 " 的 过 程 , 它 对 比较 的 平均 次 数 
取 极 小 ,假定 输入 是 随机 的 ,于 是 每 种 排列 都 是 同等 可 能 的 。 
如 图 34 所 示 ,再 次 考虑 一 个 排序 过 程 的 树 表示 。 对 所 有 排列 取 平 均 ,在 该 树 中 
的 平均 比较 次 数 是 
2+3+3+3+3+2 2 
3 
一 般 地 说 ,在 一 个 排序 方法 中 ,平均 的 比较 次 数 是 树 的 外 部 牙 径 长 度 除 以 n! (回想 
一 下 ,外 部 路 径 长 度 是 从 根 到 每 个 外 部 节点 的 距离 之 和 ; 见 2.3.4.5 小 节 )。 从 
2.3.4.5 小 万 的 一 些 考虑 容易 看 出 ,如 果 一 个 具有 N 个 外 部 节点 的 二 又 树 在 g 一 1 
层 有 2? - N 个 外 部 节点 ,而 在 9 层 有 2N - 2? 个 节点 ,其 中 gg=flg N1( 根 在 0 层 )， 
则 此 树 具有 极 小 的 外 部 路 径 长 度 。 因 此 极 小 的 外 部 路 径 长 度 是 
(gqg—-1)(27 ~ N)+g(2N -2)= (g+1)N-2 (34) 
极 小 路 径 长 度 也 能 由 另 一 种 有 趣 的 方式 加 以 表征 : 当 且 仅 当 有 一 个 数 1, 使 得 一 帮 扩 
展 的 二 叉 权 的 所 有 外 部 芳 点 前 出 现 站 1 层 和 1+1 层 上 时 ,此 村 有 极 小 的 外 部 有 路径 长 
度 ( 见 习题 20)。 
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如 果 置 9=lg N+ 09, 其 中 0 二 9<1, 则 极 小 外 部 路 径 长 度 的 公式 变 为 : 


N(leN+1+0— 2°) (35) 
消 数 1+ 0 一 2 如 图 37 所 示 ; 对 于 0<9<1, 它 虽 是 正 的 但 非常 小 , 决 不 超过 
1— (1+lnln2)/ln2 = 0.08607 13320 55934+ (36) 





0.1 
0.0 0.! 02 03 04 0.5 06 07 08 0.9 1.0 


图 37 函数 1+0--29 


于 是 ,通过 将 (3$) 除 以 N 得 到 的 极 小 可 能 平均 路 径 长 度 , 决 不 小 于 lg N 也 决 不 大 
于 lgN +0.0861( 这 个 结果 首先 由 A.Gleason 在 1956 年 得 出 )。 

现在 如 果 置 N =n!1, 则 得 到 在 任何 排序 方案 中 平均 比较 次 数 的 下 限 。 渐 近 地 
说 ,这 个 下 限 是 

lgn!+ O(1)= nlgn—-n/lln2+ O(logn) (37) 
设 F(n) 是 由 合并 插入 算法 执行 的 平均 比较 次 数 ; 我 们 有 
n=1 2 3 4 5 6 7 8 
下 限 (34) =0 2 16 112 832 6896 62368 619904 
nlF(n) =0 2 16 112 832 6912 62784 623232 

于 是 对 于 nn 二 5 合并 插入 在 两 种 意义 下 部 是 最 优 的 ,但 是 对 于 n=6, 尼 平均 有 6912/ 
720=9.6 次 比较 ,而 我 们 的 下 限 表明 平均 6896/720 = 9.577777… 次 比较 是 可 能 的 。 
片刻 的 思考 就 可 明白 为 什么 这 是 正确 的 :在 仅仅 做 了 8 次 比较 之 后 采用 合并 插入 
法 , 即 可 把 6 个 元 素 的 某 些 “幸运 的 ”排列 排 好 序 ,所 以 比较 树 在 三 个 层次 上 而 不 是 
在 两 个 层次 上 出 现 外 部 节点 。 这 使 得 整个 路 径 长 度 变 长 了 。 习 题 24 说 明 有 可 能 构 
造 一 个 6 元 素 的 排序 过 程 。 这 个 过 程 在 每 种 情况 下 都 要 求 9 或 10 次 比较 ;由 此 得 
出 ,平均 来 说 ,这 个 方法 比 合并 揪 和 优越。 而 且 在 其 最 坏 情 况 下 ,也 不 比 合并 插 人 更 
坏 。 

当 n=7 时 ,Y.Césari[Thesis (Univ.of Paris,1968) ,Page 37j 已 经 说 明 ,没有 排 
序 方法 能 达到 外 部 路 径 长 度 的 下 界 62368( 利 用 习题 22 的 结果 ,有 可 能 不 用 计算 机 
来 证 明 这 个 事实 )。 男 一 方面 ,他 已 经 构造 了 一 些 过 程 , 当 n =9 或 10 时 ,它们 达到 
下 限 (34)。 一 般 地 说 ,使 平均 比较 次 数 极 小 化 的 问题 ,实质 上 比 确定 S(n) 的 问题 更 
为 困难 。 其 至 可 能 对 于 某 个 n ,所 有 使 平均 比较 次 数 极 小 化 的 方法 在 它们 最 坏 的 情 
况 下 要 求 进行 S(n) 次 以 上 的 比较 。 


习 题 


1.[20] 分 别 用 以 下 两 种 方法 画 出 对 4 个 元 素 进 行 排序 的 比较 树 :(a) 二 叉 插 和 人 法 ;(b) 直 接 
的 两 路 合并 法 。 这 些 树 的 外 部 路 径 长 度 是 多 少 ? 
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2.1M24j 证 明 B(n) 记 上 L(n), 并 求 使 等 式 成 立 的 所 有 的 n。 
3.LM22] 当 允许 存在 相等 的 键 码 时 ,在 对 3 个 元 素 排 序 时 有 13 种 可 能 的 结果 ， 


K!= K,= kK, Ki = K, < 天; KI = Ks < kK, 
K,= Ki<K, KI< K,= K; K,< KI= K; 
K3 < KI= kK, KI<K,< kK; K < Ki< kK, 
K,< KI<K; K,< K; < 天， Ki3<KI<K, 
K3< K,<K, 


令 P 表示 在 对 个 元 素 排序 ,而且 允许 存在 相等 项 时 可 能 的 结果 数目 ,使 得 (P,,P; ,P,,P,,P,， 
P5，)=(1,1,3,13,75,541,…)。 证 明生 成 函数 P(z) = ,soPsz"/n1 等 于 1/(2-er)。 提 示 : 
证 明 

Pp, = 5 (" jp， 当 n >0 


k>0 


4.[LHM27](O.A.Gross) 确定 当 ”一 co 时 ,习题 3 的 数 已 的 渐 近 值 [可 能 的 提示 ;考虑 cotz 
的 部 分 分 式 展 开 ]。 

5.116」 当 键 码 可 以 相等 时 ,每 个 比较 可 以 有 3 种 (而 不 是 2 种) 结果 : K;<K,K;= KK,,K,> 
K;。 对 于 这 种 一 般 情况 下 的 排序 算法 ,可 用 扩展 的 三 又 树 表示 ,其 中 每 个 内 部 节点 i:; 有 3 株 子 
树 ;左边 .中间 和 右边 子 树 分 别 对 应 于 比较 的 3 种 可 能 的 结果 。 

试 男 出 一 株 扩 展 的 三 又 树 , 它 定义 了 允许 有 相等 键 码 的 mn =3 时 的 排序 算法 。 这 株 树 应 有 13 
个 外 部 节点 ,对 应 于 习题 3 中 列 出 的 13 种 可 能 的 结果 。 

了 > 6.[M22 ] 设 每 个 比较 如 习题 5 中 那样 有 3 种 结果 , S’ (nn) 是 对 个 元 素 排序 并 确定 诸 键 码 
之 间 所 有 等 式 所 需要 的 最 小 比较 数 。 正 文中 的 “信息 论 ” 论 证 方法 可 以 很 容易 地 被 推广 ,以 证 明 
S (n) 之 [log3P, 1, 其 中 P; 是 习题 3 和 4 中 所 分 析 的 函数 ;但 请 证 明 ,事实 上 S’(n)= S(n)。 

7.[20] 在 习题 5 对 4 个 元 素 排 序 的 意义 下 , 当 已 知 所 有 键 码 都 是 0 或 1 时 ( 即 , 如 果 天;< 
和 和 天 < 天 4, 则 有 天 := 天 :和 天 = 天), 画 出 扩展 的 三 叉 树 。 假 定 24 种 输入 都 是 同等 可 能 的 ， 
请 使 用 极 小 的 平均 比较 次 数 。 注 意 找 出 所 有 存在 的 等 式 。 例 如 , 当 你 只 知道 民 委 开 , 雪 民 ; 雪 开 ， 
时 切 勿 停止 排序 。 

8.L26]j 当 已 知 所 有 的 键 码 皆 为 -1.0 或 +1 时 , 像 习 题 7 中 那样 ,对 4 个 元 素 排 序 , 画 出 一 
株 扩展 的 三 义 树 。 假 定 3 种 输入 都 是 同等 可 能 的 ,请 使 用 极 小 的 平均 比较 次 数 。 

9.[4420] 当 像 在 习题 7 中 那样 ,对 ”个 元 素 进行 排序 , 且 又 知道 所 有 键 码 皆 为 0 或 1 时 , 试 
问 在 最 坏 情况 下 极 小 的 比较 次 数 是 多 少 ? 

10.[4425] 当 像 在 习题 7 中 那样 ,对 ”个 元 素 进 行 排序 ,上 且 又 知道 所 有 键 码 凤 为 0 或 1 时 , 试 

问 作为 n 的 函数 , 极 小 平均 比较 次 数 是 多 少 ? 

11.[PA27] 当 像 在 习题 5 中 那样 ,对 n 个 元 素 进行 排序 , 旦 又 知道 所 有 键 码 都 是 集合 11,2， 
“… ,m1 上 的 数 时 , 令 S,,(n) 是 在 最 坏 的 情况 下 需要 的 极 小 比较 数 [于 是 ,由 习题 6, S,(n)= 
S(n)j], 试 证 明 对 于 固定 的 m, 当 n 一 时 ,S, (nn) 渐 近 于 nlgm + O(1)。 

> 12.1M425 ](W.G.Bouricius, 约 1954) 假 定 可 以 出 现 相等 的 键 码 ,但 是 只 需要 对 元 素 {K,),K，,， 
… ,KK, | 排序 , 找 出 排列 a1a,…a, ,使 得 K。 二 K。 二 …K。 ;我 们 不 需要 知道 Ks。 和 K。， 是 否 相等 。 

如 有 果 一 株 比 较 树 在 上 述 意 义 下 对 一 个 键 码 序列 排序 , 当 K; = K, 时 它 在 节点 i:j 之 下 任 取 一 


分 文 (这 株 树 是 二 又 的 ,而 不 是 三 叉 的 ) , 则 这 种 排序 称 为 强 排 序 。 
a) 证 明 : 没 有 多 余 比 较 的 一 个 比较 树 对 每 个 键 码 序 列强 排序 , 当 且 仅 当 它 对 每 个 无 相同 键 码 
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的 序列 进行 排序 。 
b) 证 明 ; 当 且 仅 当 一 株 比 较 树 对 0 和 1 的 每 个 序列 进行 强 排序 时 , 它 也 对 每 个 键 码 序列 进行 
强 排 序 。 
13.,[M28 ] 证 明 (17)。 
14.[M24 ] 试 求 和 数 (19) 的 一 个 封闭 形式 。 
15.[M21 ] 确定 B(n) 和 FF(n) 的 渐 近 特性 ,精确 到 O(log nn)l 提 示 : 证 明 在 这 两 种 情况 下 ,n 
的 系数 都 包含 图 37 中 所 示 的 函数 ] 。 
16.[AHM26] (F.Hwang 和 S.Lin) 证 明 当 nn 宇 22 时 Fl(n)>[lgn! |。 
17.[LM20] 证 明 (29)。 
18.[20] 如 果 过 程 的 前 些 步 如 图 36 所 示 ,并且 它 产生 了 具有 效率 12! /22 的 线性 图 一 一 一 
一 * , 则 这 将 证 明 S(12)=29 吗 ? 
19.[40] 以 下 列 带 启发 性 的 探索 规则 进行 实验 ,来 判定 在 设计 一 株 比 较 树 时 下 次 应 比较 哪 一 
对 元 素 : 在 对 {K,,…, 开 进行 排序 的 每 一 个 阶段 ,对 于 1 过 1 三 7, 令 是 作为 迄今 所 做 比较 的 结 
果 而 得 到 的 三 K; 的 键 码 数 ,v 是 已 知 为 宇 K; 的 键 码 数 。 按 递增 的 wu;/v; 对 诸 键 码 重 新 编号 ,使 
得 w/v 过 wz1 vy… 声 u,/v,。 现 在 对 于 某 个 使 | wo- wsriu | 取 极 小 的 ? ,比较 K;: K;;1( 比 起 
(24) 中 所 用 的 完全 比较 矩阵 ,本 方法 基于 少 得 多 的 信息 ,但 它 在 许多 情况 下 似乎 给 出 最 优 的 结 
果 )。 
P20.[M26 ] 证 明 ; 当 且 仅 当 存 在 一 个 数 1 ,使 得 一 株 扩展 的 二 叉 树 的 所 有 外 部 市 扩 都 出 现 于 
第 1 层 和 第 !+1 层 上 时 (或 许 , 所 有 的 节点 都 在 同一 层 上 ) ,该 树 有 极 小 的 外 部 路 径 长 度 。 
21.[M21] 一 株 扩展 的 二 叉 树 的 高 度 是 它 的 外 部 节点 的 极 大 层次 数 。 如 果 x 是 一 株 扩 展 的 
二 又 树 的 内 部 节点 , 令 i:(z) 是 xz 以 下 的 外 部 节点 数 , 并 令 1(zx) 表 示 z 的 左 子 树 的 根 。 如 果 zx 是 
外 部 节点 , 则 令 上 (xz)=1。 试 证 一 株 扩 展 二 叉 树 在 具有 相同 节点 数 的 所 有 二 又 数 中 具有 极 小 高 
度 ,如果 对 于 所 有 内 部 节点 x， 
[Cx) -2i(1(7x)) | 2 (zx) 
22.[M24 ] 继续 习题 21 ,证 明 一 株 二 又 树 在 具有 同样 节点 数 的 所 有 二 又 树 当 中 ,拥有 极 小 外 
部 路 径 长 度 的 充分 必要 条 件 是 对 所 有 内 部 市 尽 x 
(x) — 2242))| 过 2 -42(z) 和 |2z) 27)) 1S x) -2 
[例如 ,如 果 1 (xz)=67, 则 我 们 必定 有 zt(1(z)) = 32,33,34 或 35。 如 果 只 要 求 树 的 高 度 取 极 小 ， 
则 由 以 前 的 习题 ,我 们 可 以 有 3 (L(xz)) 三 64]。 
23.[10] 正文 中 证 明 ,任何 对 n 个 元 素 进行 排序 的 方法 ,其 平均 比较 次 数 至 少 是 [lg n! | 六 
nlgn。 但 是 多 重 表 插入 (程序 5.2.1M) 平 均 仅仅 花费 O(n) 个 时 间 单 位 。 为 什么 能 这 样 ? 
24.[27] (C. Picard) ” 试 求 一 株 使 得 所 有 外 部 节点 都 出 现 于 10 层 和 11 层 的 对 6 个 元 素 排序 
的 树 。 
25.[11] 如 果 有 一 个 对 7 个 元 素 排序 的 过 程 , 它 达到 等 式 (34) 所 预测 的 极 小 平均 比较 次 数 ， 
则 在 13 层 上 将 有 多 少 外 部 节点 ? 
26.[M42 ] 试 求 对 7 个 元 素 进行 排序 的 一 个 过 程 , 它 的 平均 比较 次 数 取 极 小 。 
>》27.[20] 假设 已 知 配置 K,<K,<K,Ki<K3<K,,<K,<KI<K;,K,<K< Ki,K;< 
开 ,<K) ,Ki<K < 天 ;分别 以 概率 .01,.25,.01,.24,.25,.24 出 现 , 试 找 出 一 株 比 较 树 , 它 以 最 
小 的 平均 比较 次 数 对 这 3 个 元 素 排 序 。 
28.[40] 写 出 一 个 MIX 程序 , 它 在 最 少时 间 内 对 5 个 单字 长 的 键 码 进行 排序 ,并 停机 (关于 
基本 规则 见 5.2 节 开 头 )。 
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29.[M251」(S.M.Chase) 设 aia,…a, 是 11,2,…,n| 的 一 个 排列 。 证 明 任 何 一 个 仅仅 以 诸 
a 之 间 的 比较 为 基础 ,来 判断 这 个 排列 是 偶 还 是 奇 ( 亦 即 它 是 否 有 偶 的 或 奇 的 反 序 数 ) 的 算法 , 必 
须 至 少 进行 n lg n 次 比较 ,即使 这 个 算法 仅 有 两 个 可 能 的 结果 亦 然 。 

30.[M23] (最 优 交换 排序 ) 在 5.2.2 小 节 中 定义 的 每 一 个 交换 排序 算法 都 可 表示 为 一 株 
比较 交换 树 ; 亦 即 一 二 叉 树 结构 ,其 内 部 节点 具有 形式 i:j,i<j, 它 可 解释 为 下 列 的 操作 ;“ 如 果 
K; 达 K;, 则 通过 到 这 株 树 的 左 分 支 继 续 进 行 ;如 果 K; > K;, 则 通过 交换 记录 i 和 j ,而 后 到 这 株 树 
的 右 分 支 继 续 进行 "。 当 过 到 一 个 外 部 节点 时 ,K| 志 KK, 三 … 达 KK, 必然 为 真 。 因 此 ,一 株 比 较 交 
换 树 与 一 株 比 较 树 的 区 别 在 于 : 它 既 指明 比较 操作 也 指明 数据 移动 。 

令 S,(n) 表 示 在 最 坏 的 情况 下 ,借助 于 一 株 比 较 交换 树 对 ”个 元 素 排序 所 需要 的 极 小 比较 
交换 数 。 证 明 S,(n) 三 S(n)+n 一 1。 

31.[M38 |] 继续 习题 30 ,证 明 S.(5)=8。 

32,[M42] 继续 习题 31 ,对 于 n>5 的 小 的 值 研究 S,(n)。 

33.[M30](T.N.Hibbard)” 阶 为 xz 和 分 辨 度 为 6 的 实 值 的 查找 树 是 一 株 扩展 的 二 又 树 ,其 
中 所 有 的 节点 都 包含 一 个 非 负 的 实 值 ,使 得 :(i) 在 每 个 外 部 节点 中 的 值 都 全 6;(ii) 在 每 个 内 部 节 
点 的 值 至 多 为 它 的 两 个 儿子 值 的 和 ;(i) 根 的 值 是 x。 这 样 一 株 树 的 加 权 路 径 长 度 , 定 义 为 对 于 
所 有 外 部 节点 ,节点 的 层次 乘 以 它 包含 的 值 求 和 。 

证 明 一 株 阶 为 x 和 分 辨 度 为 1 的 实 值 查 找 树 ,在 有 同样 的 阶 和 分 辨 度 的 所 有 这 样 的 树 中 , 具 
有 极 小 的 加 权 路 径 长 度 的 充分 必要 条 件 是 :在 (ii) 中 的 等 式 成 立 , 且 对 于 包含 于 兄弟 节点 中 的 所 有 
值 偶 zo 和 x ,下 列 进 一 步 的 条 件 成 立 :(iv) 不 存在 整数 宇 0, 使 得 zo<2*<xi 或 xz1<2*< zo; 
(v)fzol-xzo+fzil-zxc<li( 特 别 是 ,如 果 z 是 整数 , 则 条 件 (v) 意 味 着 在 这 株 树 中 的 所 有 值 都 是 
整数 , 且 条 件 (iv) 等 价 于 习题 22 的 结果 )。 

另外 证 明 对 应 的 极 小 加 权 路 径 长 度 是 zflg zx]1+「z]1-228= 。 

34.[M50] 对 于 无 穷 多 个 n 确定 Sl(n) 的 精确 值 。 

35.[49] 确定 S(14) 的 精确 值 。 

36.[AS0] (S.S. Kislitsyn,1968) 证 明 或 反驳 :任何 满足 T(G)>1 的 有 向 无 回路 图 G ,有 两 个 
顶点 w 和 w ,使 得 通过 加 上 有 向 边 w 一 v 和 ww 一 v, 从 G 得 到 的 有 加 图 CG; 和 G, 是 无 回路 的 ,并 满 


足 1 过 T(GD)/T(G;) 过 2( 因 此 ,对 于 某 个 和 vw,T(G1)/T(G) 总 介 于 方 委 之 间 )。 


"5.3.2 极 少 比较 合并 


现在 考虑 一 个 相关 的 问题 :什么 是 把 m 个 元 素 的 一 个 有 序 集合 入 个 元 素 的 

一 个 有 序 集合 合并 的 最 好 方法 ?以 
A1I<A,<…<A, 和 BlI<B <…<B， (1) 
表示 有 待 合并 的 元 素 ,如 同 在 5.3.1 小 节 中 那样 ,假定 这 m + n 个 元 素 是 不 同 的 。 


诺 A 可 以 [”””] 种 方式 出 现 于 诸 B 当中 ,所 以 ,已 用 于 排序 问题 的 论证 立即 告诉 


我 们 ,至 少 需 要 
1 (™ ") (2) 


次 比较 。 如 果 置 m = an 并 设 n 一 % ,而 a 是 固定 的 , 则 斯 特 林 近似 公式 告诉 我 们 
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el™! "= n((1+a)lg(l +a)—-alga)-— lg n+ O(1) (3) 


正常 的 合并 过 程 , 即 算法 5.2.4M ,在 它 最 坏 的 情况 下 ,花费 m+n--1 次 比较 。 
令 M(m,n) 表 示 类 似 于 S(n) 的 函数 , 亦 即 总 是 足以 把 mx 件 事物 同 ”个 事物 
合并 的 极 小 比较 次 数 。 按 我 们 刚才 所 做 的 观察 


i "< Mon < mt-1 对 于 所 有 m,n 宇 1 (4) 
公式 (3) 说 明 这 个 下 限 可 以 如 何 远离 上 限 。 当 a=1( 即 m=n) 时 ,下 限 是 2n - 
lgn+ O(1), 所 以 上 下 限 两 者 都 有 正确 数量 级 ,但 是 它们 之 间 的 差 可 以 任意 大 。 


当 x=0.5| 即 m= 六 | 时 ,下 限 为 
了 | 3 一 了 站 O(logn) 


它 大 约 是 lg 3- 殷 <0.918 乘 上 限 。 而 且 , 随 着 a 减 小 ,这 些 界限 就 越 离 越 远 ,因为 


标准 的 合并 算法 主要 是 对 和 sz 的 文件 来 设计 的 。 
当 m =n 时 ,合并 的 问题 有 相当 简单 的 解 ;由 此 可 知 , 是 (4) 的 下 界 有 问题 ,而 不 
是 上 界 。 下 列 定理 是 由 R.L.Graham 和 R.Mo.Karp 大 约 于 1968 年 独立 地 发 现 的 。 
定理 M 当主 1 有 于 ,M(m,m)=2m—1。 
证 明 考虑 把 Al1<…< A 同 B1<…<B, 合并 的 任何 算法 。 当 它 比较 Ai :也 
时 ,如 果 i<j 取 分 支 A;< Bi; 如 果 1; 之) 取 分 文 A;> Bi。 合 并 最 终 必 须 以 配置 
BI<A!<B,<A,<:…B, < A, (5) 
结束 ,因为 这 同 所 采取 的 所 有 分 支 一 致 ,而 且 2mm 一 1 个 比较 Bl.:Al,Ai:B,,B,: 
A,,…,B,,: A, 中 的 每 一 个 都 必须 已 经 明显 地 做 出 ,否则 至 少 会 有 两 个 配置 同 已 知 
的 事实 相 一 致 。 例 如 ,如果 A; 未 与 B, 进行 比较 , 则 配置 
BI<B,<A,<A,…<B,< A, 
无 法 与 (5) 相 区 别 。 | 
简单 修改 这 个 证 明 ,就 得 出 伴随 的 公式 
Ml(m,m+1)= 2m 对 于 和 之 0 (6) 


构造 下 限 ”定理 M 表明 , “信息 论 " 的 下 限 (2) 可 以 同 真正 的 下 限 相 距 任 意 远 ; 
因此 ,用 于 证 明定 理 M 的 技术 给 了 我 们 发 现下 限 的 另 一 个 办 法 ,这样 一 个 证 明 技 术 
通常 被 看 做 是 制造 一 个 敌手 ,一 个 试图 使 这 些 算法 缓慢 地 进行 的 有 害 的 人 。 当 用 于 
合并 的 一 个 算法 比较 A;:B; 时 ,这 个 敌手 是 这 样 确定 比较 的 结局 的 ;就 好 像 他 要 使 
这 个 算法 沿 着 较为 困难 的 道路 走 下 去 。 如 同 在 定理 M 的 证 明 中 那样 ,如 果 能 够 发 
明 一 个 适当 的 敌手 ,就 能 够 确保 ,每 一 个 有 效 的 合并 算法 必须 做 更 大 量 的 比较 。 
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我 们 将 利用 党 限 的 敌手 , 它 在 确定 某 些 比较 的 结果 时 ,其 权力 是 受到 限制 的 。 
在 一 个 受 限 的 敌手 影响 下 的 一 个 合并 方法 不 知道 这 些 限制 ,所 以 它 仍然 进行 必要 的 
比较 ,尽管 比较 的 结果 已 被 预先 确定 。 例 如 ,在 关于 定理 M 的 证 明 中 ,通过 条 件 (5) 
限制 了 所 有 的 结果 ,然而 合并 算法 不 能 利用 这 一 事实 来 免 去 任何 一 次 比较 。 

在 以 下 的 讨论 中 ,我 们 将 使 用 的 限制 可 应 用 于 文件 的 左 端 和 右 端 。 左 边 的 限制 
以 下 列 符 号 表征 : 

` 意 为 没有 左边 的 限制 。 

\ 意 为 所 有 的 结论 都 必须 同 A1 < Bi 一致 。 

/ 意 为 所有 的 结论 都 必须 同 A > Bi 一 致 。 

右边 的 限制 以 下 列 符号 表征 : 

` 意 为 没有 右边 的 限制 。 

\ 意 为 所 有 的 结论 都 必须 同 A,, < B, 一 致 。 

/ 意 为 所 有 的 结论 都 必须 同 A,, > B, 一 致 。 

敌手 有 9 种 类 型 ,以 AMo 来 表示 ,其 中 4 是 一 个 左 限 制 而 o 是 一 个 右 限制 。 倒 
如 ,一 个 “\ MA “敌手 必须 指出 AI< Bi 和 A,;< 也, ;一 个 “. M. "敌手 是 不 受 限制 的 。 
对 于 茶 个 小 的 m 和 ?7 , 某 些 类 型 的 受 限 制 的 敌手 是 不 可 能 有 的 ; 当 冯 =1 时 ,我 们 显 
然 不 能 有 一 个 “\ M1/” 的 敌手 。 

现在 让 我 们 来 构造 用 于 合并 的 一 个 稍微 复杂 但 非常 难 对 付 的 敌手 , 它 不 总 产生 
最 优 的 结果 ,但 它 给 出 了 包含 大 量 有 趣 情 况 的 下 限 。 给 定 m4 、n ,以 及 左边 和 右边 的 
限制 4 和 % ,假设 要 求 敌手 指出 A; 或 B; 哪 一 个 大 。 有 6 个 策略 可 用 来 把 此 问题 归 
结 为 较 小 的 m+n 的 情况 。 

策略 A(k,1) 适用 于 ;i 委 & 委 和 2 以 及 1 委 / 委 1)。 比 如 说 A;< Bi; ,而 且 要 求 随后 
的 操作 把 和 Ai,…,Ayj} 同 {Bi1,…,B,_ 1 以 及 把 [A ;1,…,A;| 同 1B,,…,B,| 合 并 。 
如 条 p 亿 & 和 g 宇 1, 则 比较 A,: B。, 所 得 的 回答 将 为 A, < B, ;如果 p>k 和 g<<7, 则 
回答 将 是 A, > B, ;如 果 pk& 和 g<<1, 则 它们 将 通过 (8,/ 一 1,4，,.) 敌 手 加 以 处 理 ; 
如 果 p >>k 和 g 宇 7 , 则 通过 (mm 一 有 ,n+1 一 71,.,p) 天 手 加 以 处 理 。 

策略 BL&,!) 适用 于 i 三 km 和 1 和 2<7J。 比 如 说 A;< 日 ,并且 要 求 随后 的 
操作 把 1A1,…, Ay| 同 1B1,…,Bi| ,以 及 把 | A 4,1,…,A|] 同 1B,,…,B,) 加 以 合并 ， 
约定 A < B,< A,+1( 注 意 ,B, 出 现 于 有 待 合并 的 两 个 表 中 。 条 件 A < B,< A ;1 确 
保 合 并 一 个 组 不 会 给 出 有 助 于 合并 另 一 个 组 的 信息 )。 因 此 ,将 来 的 比较 A,: B。, 如 
朵 p 夺 & 和 g 之 /1 ,将 得 到 结果 A,< B, ;如果 p>>k 和 gq 三/ ,结果 将 为 A, > B, ;如果 
pk 和 gq 二 7 ,它们 将 通过 一 个 (&,7,X,\ ) 敌 手 来 处 理 ;如 果 p>k 和 g 宇 1, 则 通过 
一 个 (m 一 ,n+1 一 /1,/,p) 敌手 来 处 理 。 

策略 Cl(k,1) 适用 于 i<k 三 m 和 1 委 / 委 )。 比 如 说 4A;< Bi ,并 且 要 求 随 后 的 
操作 把 {Al,…,Ail 同 1B1,…,B,_1| 和 |A,,…,A,1 同 1B,,…,B,|} 合 并 ,约定 B,-_i 
< Ai< Bi( 类 似 于 策略 B ,交换 A 和 B 的 作用 )。 
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策略 A'(k,1) 适用 于 1 三 ki 和 j 志 /过 n。 比 如 说 A; > Bi ,并 且 要 求 把 
Ai,…,As-1| 同 {1B1,…,B| ,和 |Ai,…,A1 同 1B,41,…,B,| 合 并 (类 似 于 策略 
A)。 

策略 B'(k,1) 适用 于 1 二 ki 和 7J< /和 2。 比如 说 A; > B;, 并 且 要 求 把 
1A;,…,Ax_1| 同 1B1,…,Bij 和 1A,…,A;,1 同 1B,,…,B,1 合 并 , 且 有 A -1<B,< 
Ai( 类 似 于 策略 B)。 

策略 C'(k,1) 适用 于 1 三 k<i 和 j 志 1 人 nn。 比 如 说 A; > B,, 并 且 要 求 把 
1A1,…,Ai]| 同 {1B1,…,B;| 以 及 [A,,…,A,| 同 1B,:1,…,B;| 合 并 , 且 有 B,< A,< 
B11( 类 似 于 策略 C)。 

由 于 这 些 限制 ,上 述 策略 不 可 能 用 于 下 列 情况 : 


策略 当 出 现下 列 情况 时 必须 被 省 略 
A(k,1), B(k,1), C(k,1) A = 
A’(1,1), B'(1,1), CC’'(1,7) A= 
A(m,l), B(m,l), Cl(m,/) o= | 
A(k,n), B(k,n), C' (k,n) 0 = 


令 AMo(m,n) 表 示 合 并 的 极 大 下 限 , 它 是 通过 上 述 的 某 个 敌手 得 到 的 。 当 第 
一 个 比较 数 是 A;: B; 时 ,每 个 策略 在 其 适用 的 场合 给 了 我 们 关于 这 9 个 函数 的 一 个 
不 等 式 ,如 下 : 
A(k,1): AMo(m,n) 之 1+ AM.(k,1—-1)+.Mo(m—k,nt+l-— 7) ; 
B(k,I): AMo(m,n) 之 1+AM\(k,1)+/IMo(m—- k,nt+l— 2); 
C(k,L): AMo(m,n) 之 1+AM/I(k,L -1)+ \ Mo(m+l-k,n+l-/); 
A (k,1/): AMo(m,n) 宇 1+AM.(k—-1,7) +. Mo(m +1—-k,n— 1/); 
B’'(k,/): AMo(m,n) 宇 1+AM\(k—-1,7) + [Mo(m +1-k,n+t+l1-17); 
C (k,l): AMo(m,n) 宇 1+ AMI(k,1)+ \ Mol(m+1—-k,n-— 1) 。 
对 于 固定 的 ;和 7 ,这 个 敌手 将 采取 一 个 策略 ,该 策略 使 得 当 & 和 1 位 于 由 i 和 7 所 
允许 的 范围 时 ,由 所 有 可 能 的 右 端 给 出 的 下 限 取 极 大 值 ; 于 是 ,定义 AMp (m,n) 为 
对 于 1 过 i 达 mm 和 1 二 nn 所 取 的 这 些 下 限 的 极 小 值 。 当 和 2 或 n 为 0 时 ,AMp(m， 
n) 为 0。 
例如 ,考虑 加 =2 和 7 =3 的 情况 ,而 且 假设 我 们 的 敌手 是 不 受 限 制 的 。 如 果 头 
一 个 比较 是 Ai: Bi, 则 这 个 敌手 可 以 采取 策略 A“ (1,1), 此 时 需要 . M.(0,1) + 
.M.(2,2)=3 个 进一步 的 比较 。 如 果 第 一 个 比较 是 Ai : Bi, 则 这 个 敌手 可 以 采取 
策略 B(1,2) ,此 时 需要 .MA (1,2)+/M.(1,2)=4 个 进一步 的 比较 。 不 管 首 先 比 
较 娜 一 对 A,: B,, 这 个 敌手 总 可 以 保证 至 少 必须 进行 3 次 进一步 的 比较 ,因此 .M. 
(2,3) =4。 
用 手 来 进行 这 些 计算 是 不 容易 的 ,但 是 一 台 计 算 机 却 可 以 相当 快 地 做 出 Mo 
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图 数 表 。 它 有 某 些 明显 的 对 称 性 ,例如 


[IM.(m,n)=.M\(m,n)= \M.(n,m)=.M/(n,m) 


(7) 


首 助 于 它 ,我 们 可 以 把 9 个 函数 减少 到 只 有 4 个 :M.(m,n),/M.(m,n),/M \ 
(m,n) 以 及 /MI(m,n)。 表 1 指出 对 于 所 有 和 ,2 委 10 所 得 到 的 值 ;我 们 的 合并 的 


敌手 已 经 以 这 样 的 方式 定义 , 即 


Mm,n)M(m,n) 


对 于 所 有 mm ,2 之 0 


(8) 


这 个 关系 包括 定理 M 作为 一 个 特殊 情况 ,因为 当 |m 一 | 二 1 时 我 们 的 敌手 将 使 用 





该 定理 的 简单 策略 。 
现在 考虑 为 M 函数 所 满足 的 某 些 简单 关系 : 
M(m,n) = M(n,m) (9) 
AM ,02) 委 AM ,7 十 1) (10 ) 
表 1 由 “敌手 "得 到 的 对 于 合并 的 下 限 
.M.(m,n) IM.(m,n) 
1 2 3 4 9 6 7 8 9 10 2 3 4 5 6 7 8 9 10 
1 1 2 2 3 3 3 3 4 4 4 2 2 3 3 3 3 4 4 4 1 
2 2 3 4 3 5 6 6 6 7 7 3 4 4 3 $s 6 6 7 7 2 
3 2 4 3 6 7 7 8 8 9 9 3 5S 6 7 7 8 8 9 9 3 
4 3 5 6 7 8 9 10 10 11 11 4 3 7 8 9 9 10 10 11 4 
5 3 $5 7 8 9 10 1 12 12 13 4 6 8 9 10 11 12 12 13 9 
6 36 7 9 101l 12 13 14 15 4 6 8 10 11 !12 13 14 14 6 
7 3 6 8 10 11 12 13 14 15 16 4 7 9 10 12 13 14 1 16 7 
8 4 .6 8 10 12 13 14 13 16 17 5 7 9 11 13 14 133 16 17 8 
9 4 7 9 11 12 14 13 16 17 18 5 8 10 11 13 15S 16 17 18 9 
10 4 7 9 11] 13 15 16 17 18 19 5 8 10 12 14 13 17 18 19 10 
nm m 
IM\ (m,n) IM/I(m,n) 
1 -co2 2 3 3 3 3 4 4 4 1 1 1 1 1 1 J 1 1 ] 
2 -co2 4 4 5 S$ 6 6 7 7 3 3 4 4 4 4 5 S$ 5 2 
3 -0 2 4 6 6 7 8 8 8 9 3 5 Ss 6 6 7 7 8 8 3 
4 一 co 2 5 6 8 8 9 10 10 11 4 4 7 7 8 9 9 9 10 4 
9 -co2 5 7 8 10 10 11 12 13 4 6 7 9 9 10 1 il1 12 5 
6 -co2 5 7 9 10 12 13 14 14 4 6 8 9 11 11 12 13 14 6 
7 -co2 5 8 10 11 12 14 15 16 4 7 9 10 11 13 14 15 15 7 
8 一 co 2 6 8 10 12 13 13 16 17 9 7 9 11 12 14 1S 16 17 8 
9 -co2 6 9 10 12 14 16 17 18 3 8 9 11 13 15 16 17 18 9 
10 一 co 2 6 9 11 13 15 16 18 19 5 8 10 12 14 15S 17 18 19 10 
l] 2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10 
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Mk+m,n) 达 Mk,n)+ Mm,n) (11) 
Mm,n) max(M(m,n-1)+1, M(m-1,n)+1) 对 于 mm 写 1,n 之 1(12) 
Mm,n) max(M(m,n -2)+1, M(m-1,n)+2 对 于 mm 宇 1,n 之 2 (13) 


如 果 首 先 比 较 A, :Bi,, 由 通常 的 合并 过 程 即 得 出 关系 (12)。 通 过 首先 比较 Al:B，,， 
即 可 类 似 地 导出 关系 (13); 如 果 A1> B，, 则 需要 M(m,n 一 2) 次 进一步 的 比较 ,但 
如 果 A1<B,, 则 我 们 可 以 把 Al 插入 到 它 适当 的 位 置 , 并 把 | A,,…, As1 同 {BI,… 
B,; | 合并 。 推 而 广 之 ,通过 首先 比较 A1:B, ,而且 如 果 A|<B, 便 使 用 二 又 查找 ,我 
们 可 以 看 出 如 果 mm 宇 1 和 nn 之 ,我 们 有 
Mm,n) 达 max(M(m,n—-k)+1,M(m—-1,n)+1+|llgk|) (14) 

结果 是 ,对 于 所 有 m,n 二 10,M(m,n)=.M.(m,n), 所 以 表 1 实际 上 给 出 了 合并 
的 最 优 值 。 这 可 以 通过 使 用 (9) 一 (14) 以 及 在 习题 8.9 和 10 中 给 出 的 (m,n)= (2， 
8),(3,6) 和 (5,9) 的 特殊 构造 得 到 证 明 。 

万 一 方面 ,我们 的 敌手 并 不 总 是 给 出 最 好 可 能 的 下 限 ; 最 简单 的 例子 是 mm = 3， 
2 =11, 这 时 .M.(3,11)=9, 但 是 M(3,11)=10。 为 了 看 出 在 此 种 情况 下 这 个 “ 政 
人 "在 哪儿 “出 错 ” ,我 们 必须 研究 他 做 此 判断 的 理由 ;进一步 检查 揭示 出 ,如 果 (i,j) 
关 (2,6), 则 这 个 敌手 可 以 找到 一 个 要 求 10 次 比较 的 策略 ;但 当 (i,j) = (2,6) 时 , 没 
有 策略 胜 过 策略 A(2,4), 使 下 限 成 为 1+.M.(2,3)+.M.(1,8)=9。 通 过 把 
1A1,As1 同 {1B1,B,,B3| 以 及 1A3| 同 1B4,… ,Bli| 合 并 来 完成 整个 合并 是 必要 的 但 
不 是 充分 的 ,所 以 在 这 种 情况 下 下 限 并 不 是 最 佳 的 。 

类 似 地 ,可 以 证 明 . M.(2,38)=10, 而 M(2,38)=11, 所 以 我 们 的 敌手 并 没有 
好 到 足以 解决 m = 2 的 情况 。 但 是 有 一 类 无 穷 多 个 值 ,对 于 这 类 值 来 说 它 是 杰出 
的 : 


定理 K M(m,m+2)=2m+1 对 于 4 宇 2 
M(m,m+3)=2m+2 对 于 x 宇 4 
M(m,m+4)=2m+3 对 于 m4 宇 6 
证 明 事实 上 可 以 以 . M. 代 蔡 M 来 证 明 这 个 结果 ;对 于 小 的 m ,这 些 结果 已 
经 通过 计算 机 得 到 ,所 以 可 以 假定 m 是 足够 大 的 。 也 可 以 假定 ,第 一 个 比较 是 A;: 
B;, 其 中 i 二 | m12 |。 如 果 ;二 i 则 使 用 策略 A'(i,i), 对 wa 用 归纳 法 ,& 委 4, 得 到 


M.(m,m+d) 宕 1 +.M.(i—-1,i1)+.M.(m+l1-i,m+d—-i)= 
27M 十 太一 ] 
如 果 7>i 则 使 用 策略 A(i ,i+1), 对 用 归纳 法 ,得 到 
‘M.(m,m+a)1 +.M.(i,i)+.M.(m—-i,m+d—-i)= 


2m+ada-1l1 | 
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定理 KK 的 前 两 部 分 由 下. Hwang 和 S.Lin 于 1969 年 得 到 。Paul Stockmeyer 和 
Frances Yao 许多 年 后 证 明 ,在 这 3 个 公式 中 显示 的 模式 一 般 都 成 立 , 即 由 以 上 的 策 
略 所 导出 的 下 限 足 以 得 到 值 M(m,m+4d)=2m+4d-1, 其 路 宇 24 -2 
| SICOMP 9 (1980) ,85 一 90]。 


上 限 现在 来 考虑 M(m,n) 的 上 限 ; 好 的 上 限 对 应 于 有 效 的 合并 算法 。 

当 m=1 时 ,合并 问题 等 价 于 一 个 插入 问题 ,而 且 Bj,…,B, 之 中 有 n+1 个 位 
秆 是 A 可 以 插入 进去 的 。 对 于 这 种 情况 ,容易 看 出 ,具有 mn +1 个 外 部 节点 的 任何 
一 株 扩展 的 二 又 树 均 对 应 于 某 个 合并 方法 的 树 ( 见 习题 2)。 因 此 ,可 以 选择 一 株 最 
优 二 叉 树 , 它 实现 信息 论 的 下 限 


l+llgn: = M(1l,n)= [lg (n+1)| (15) 


当然 ,二 又 查找 (6.2.1 小 节 ) 是 达到 这 个 值 的 一 个 简单 方法 。 
m =2 的 情况 是 极为 有 趣 的 ,但 也 困难 得 多 ,不 过 它 已 经 被 R. L. Graham, FP. K. 
Hwang 以 及 S.Lin 完全 解决 了 (见习 题 11,12,13); 他 们 证 明了 一 般 的 公式 
M(2,n) = g(r) + lig (n+1)| (16) 
我 们 已 经 知道 , 当 mx = n 时 ,通常 的 合并 过 程 是 最 优 的 ,而 当 m=1 时 , 颇 为 不 
同 的 二 叉 查 找 过 程 是 最 优 的 。 我 们 需要 的 是 居中 的 方法 , 它 把 通常 的 合并 算法 同 二 
又 查找 组 合 在 一 起 ,并 且 保 留 两 者 最 好 的 特性 。 公 式 (14) 提 出 了 下 列 合 并 算法 , 它 
是 由 下 .K.Hwang 和 S.Lin[SICOMP 1(1972) ,31 一 39] 给 出 的 : 
算法 H( 二 又 合并 ) 
H1. 如 果 m 或 2 为 0, 则 停止 。 如 果 mm >n, 则 置 1 一 Llg (mf/n) | 并 转向 步 又 
H4。 否 则 置 :< lg (n/m )]。 
H2. 比较 A : B,+1 2。 如 果 A, 是 较 小 的 , 则 置 n<n -2: 并 返回 步骤 H1。 
H3. 利用 二 又 查找 ( 它 恰恰 要 求 1 次 进一步 的 比较 ), 把 A, 插入 到 它 在 
1B,+1-2:，,…,B,; | 中 的 应 有 位 置 。 如 果 是 使 得 B,< A, 的 极 大 值 , 则 置 
m<-m 一 1 和 nk。 返回 H1。 
H4.〈 步 又 H4 和 HS 同 H2 和 H3 类 似 , 只 是 交换 了 mm 和 ,A 和 B 的 作用 ) 
如 果 B; < A +1_2; 则 置 mm 一 m -2 并 返回 步骤 HL。 
HS. 插入 B, 到 它 在 诸 A 中 的 应 有 位 置 。 如 果 上 是 使 得 A, < B, 的 极 大 值 , 则 
置 mk 和 nn 一 1, 返 加 Hl。 


作为 这 个 算法 的 一 个 例子 , 表 2 示 出 3 个 键 码 {087,503,5121 同 13 个 键 码 
{061 ,154,… ,908| 合 并 的 过 程 ;在 这 个 例子 中 ,需要 进行 8 次 比较 。 在 每 
步 当 中 被 比较 的 元 素 以 黑体 示 出 。 
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表 2 二 又 合并 的 例子 









087 S503 $12| 061 653 677 703 763 897 
087 503 512| 061 154 170 275 426 509 612 653 677 
087 S503 $12| 061 
087 503 $12| 061 


703 765 897 908 
653 677 703 765 897 908 
653 677 703 765 897 908 


087 503 612 653 677 703 765 897 908 
087 503 512 612 653 677 703 765 897 908 
087 512 612 653 677 703 765 897 908 
087 426 503 509 S512 612 653 677 703 765 897 908 









154 170 275 426 503 509 512 612 653 677 703 765 897 908 
设 昌 (m,n) 是 Hwang 和 Lin 算法 所 要 求 的 极 大 比较 数 。 为 了 计算 H(m,n)， 
可 以 假定 在 步骤 H3 中 有 &=7 且 在 步 豫 H5 中 有 &= 和 ,因为 通过 对 mr 用 归纳 法 ,我 
们 将 证 明 对 所 有 的 n 宇 m 一 1,H(m 一 1,n) 二 Hm 一 1,n +1)。 于 是 当 闷 委 时 ， 
对 于 2im 原 nn< 之 2:*1m ,有 
Hlm,n) = max(M(m,n -2)+1,H(m—-1,n)+i+1) (17) 
以 2n +c 代 苦 n,e=0 或 1, 得 到 ,对 于 2im 寺 n<2'* mm， 
H(m,2n +¢e) = max[ H(m,2n +¢e -2 )+1,H(m—1,2n+¢)+tt+ 2 | 
对 n 用 归纳 法 ,得 出 
Hl(m,2n+e) = Hl(m,n)+m 对 于 mm 三 n,e= 0 或 1 (18) 
容易 看 出 , 当 mn<2m 时 ,HH(m,n)= m+n 一 1; 因 此 重复 地 应 用 (18) 妈 得 一 般 
的 公式 
Hl(m,n) = m +lLn/2:j -1+ tm 对 于 mx 过 n,t =Llg(nfm))| (19) 
这 意味 着 ,对 所 有 的 n 宇 m 有 旷 (m.,n) 志 Hl(m ,n+1), 证 实 了 我 们 关于 H3 这 一 步 
的 归纳 假设 。 
置 m=an 和 和 0=lg(n/m)-1, 当 n 一 % 时 ,给 出 
H(an,n) = an(1+2 -0- lga)+ O(1) (20) 
由 等 式 5.3.1-(36) 我 们 知道 ,1.9139<1+224 0 二 2; 因 此 ,(20) 可 以 同 信息 论 的 下 
限 (3) 相 比较 ,Hwang 和 Lin 已 经 证 明 (见习 题 17) 


H(m,n) < 1 (™ |e min( m,n) (21) 


Hwang-Lin 的 二 叉 合 并 算法 并 不 总 是 给 出 最 优 的 结果 ,但 它 有 很 大 的 长 处 , 即 
它 编写 程序 相当 容易 。 当 m = 1 时 ,该 算法 归结 为 “ 非 中 心 的 二 义 查 找 ", 当 m 守 n 
时 , 它 归 结 为 通常 的 合并 过 程 ,所 以 它 是 这 两 个 方法 之 间 的 一 种 卓越 的 折衷 。 而 且 ， 
在 许多 情况 下 它 是 最 优 的 (见习 题 16)。F. K. Hwang 和 D.N. DeutschlJACM 20 
(1973),148~159],G.K.Manacher, JACM 26(1979) ,434 一 440] ,以 及 最 突出 的 是 
C. Christen[FOCS 19(1978) ,259 一 266] ,已 经 找到 改进 的 算法 。Christen 的 合并 过 
程 , 称 为 向 前 测试 -向 后 插入 , 当 n/m 一 时 比 算法 H 节省 大 约 m13 的 比较 ,而 且 当 
sm 一 3 过 nn 过 7m+2[m 偶 ] 时 ,Christen 过 程 达到 下 限 .M. (m,n) =[L(IIm Da 一 3)/ 
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4 |。 因此 ,在 这 样 的 情况 下 (以 及 值得 注意 地 ,在 我 们 的 对 手下 限 情况 下 也 是 ), 它 
是 最 优 的 。 
公式 (18) 提 示 ,M 函数 本 身 可 以 满足 
AM ) 委 MLaj2) 二 7 (22 ) 
这 实际 上 是 真 的 (见习 题 19)。M(m ,nn ) 的 表 提 示 了 其 它 若 于 似乎 正确 的 关系 , 诸 
如 
Mm+t+1,n) 宇 1+M(m,n) 宇 Ml(m,n+1) 对 于 mn 过 nn (23) 
Ml(m+l,nt+1) 之 2+ M(m,n) (24) 
但 这 些 不 等 式 尚未 得 到 证 明 。 


习题 
1.115] 试 求 M( ,2 ) 和 5S.3.1 小 节 中 定义 的 函数 S 之 间 有 趣 的 关系 [提示 :考虑 S(m + 
2 )j]。 


2.[22] 当 六 =1 时 ,没有 多 余 比 较 的 每 个 合并 算法 都 定义 了 一 株 具 有 | “ )= +1 个 


外 部 节点 的 扩展 二 叉 树 。 试 证 明 : 反 过 来 ,每 一 株 具 有 n+ 1 个 外 部 节点 的 扩展 二 又 树 都 对 应 于 
m= 三 1 的 合并 算法 。 
3.[LM24 ] 证 明 对 所 有 nn,.M.(1,n)=M(1,n)。 


m+n 


4.[M42 |] 对 所 有 m nM. (mn) e(™ 四 


5.[M30] 证 明 .M.(m,n) 夺 .M \ (m,n+1)。 
6.[M26] 定理 K 中 所 述 的 证 明 要 求 计算 机 验证 大 量 不 同 的 情形 ,如 何 能 大 大 地 减少 这 种 
验证 的 数目 ? 
7.121」 证 明 (11)。 
>8.[24] 通过 找 出 一 个 算法 , 它 使 用 至 多 6 次 比较 把 2 个 元 素 同 其 他 8 个 元 素 合并 起 来 ,来 
证 明 M(2 ,8) 委 6。 
9.[27] 证 明 至 多 用 7 步 便 可 以 把 3 个 元 素 同 6 个 元 素 合 并 起 来 。 
10.[33] 证 明 5 个 元 素 可 以 在 至 多 12 步 中 同 9 个 元 素 合 并 起 来 [提示 :根据 敌手 的 经 验 提 议 
先 比较 A;:B，, 然 后 如 果 A,< B,, 则 比较 A;:Ag]。 


. 7 12 5 
11. [M40 ](F.Hwang S. Lin) 对 于 之 0, 令 ea Be -| 学 | ,全 得 (enven se 


…)=(1,1,2,3,4,6,9,13,19,27,38,34,77,…)。 证 明 ,在 最 坏 的 情况 下 , 它 花费 1 次 以 上 的 比较 
把 2 个 元 素 同 g, 个 元 素 合 并 ;但 是 2 个 元 素 可 以 在 至 多 上 步 中 同 g, - 1 个 元 素 合并 [提示 :证 明 ， 
如 果 n=g, 或 n=g, 一 1, 且 如 果 要 在 1 次 比较 中 合并 iAl,As1 和 | B1,B,,…,B,|, 则 第 一 步 以 比 
较 A2: B。 为 最 好 j]。 

12.[LM21 |] 设 R,(i,j;) 是 为 对 不 同 的 对 象 |a,B,X! ,XX,,… ,XX, | 排序 所 需要 的 最 少 比 较 数 ， 
给 定 关 系 
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a<B, XIi<X< CK,, a< Xr, BY>X,., 
( 当 i 宇 n 或 j 宇 n 时 ,条 件 a< Xi 或 8>X,- ;为 空 ,因此 R,(n,n)= M(2,n))。 
显然 ,R,(0,0)=0。 证 明 : 对 于 0<i<n,0j 二 nn,i+j>0， 
R,(i,j) = 1+ min( min max( R, (k — 1,7),R,_,.(i1— k,;)), 
min max(R,(i,k — 1), Rr(i,j ~ &))) 
13.[M42] (R.L.Graham) 说 明 习题 12 中 递 推 关系 的 解 可 以 表达 如 下 ,根据 规则 





(1 如 果 0 < zx 之 方 
1 1 2 3 
Ga -42+8c08z 5) 如 有 果 本 < 工 委 本 
3G(2r - 1) 如 果 守 < rl 
00 如 果 1< zz < oo 


对 于 0<xz< co ,定义 函数 G(z)。 
见 图 38 ,由 于 Ri)= 尺 (7 以 及 由 于 民 ,(0)= M(1,j), 可 以 假定 1 二 i 二) 三 n。 令 pp 


=[lg ij,q=[Llgjj,r=|ilg nj, 并 令 :1=n 一 2”+1。 于 是 
R,(i,7) = p+q+ S,(i,j)+ T,(i,j) 


1.0 
0.9 
0.8 
0.7 
0.6 
0.5 
0.4 
0.3 
0.2 
0.1 
0.0 
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 
图 38 ”Graham 的 函数 (见习 题 13) 
其 中 S, 和 也, 为 0 或 1 的 函数 : 
Si(i,j) = 1 当日 仅 当 gg <r 或 (i - 2? 之 wu 上 且 j} -2 过 xz) 
T,(i,j) = 1 当 且 仅 当 p <r 或 (1: > 5952”? 且 i -2 之 %) 
其 中 w=2?G(112?) 有 征 v=2” ?2G(t/2” ?)。 
这 可 能 是 需要 解决 的 最 麻烦 的 递 推 关系 ! 
14.[41] (F.K. Hwang) ”对 于 之 3 设 hs, = | 和 2 -1,j = hss + 3.24-3, hy = 


17,, 


72 


+ 二] 且 设 初始 值 被 定义 成 使 得 (ho ,hi,h;,… )=(1,1,2,2,3,4,5,7,9,11,14,18,23,29, 
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38,48,60,76…)。 证 明 对 所 有 1,M(3,h,)>t 和 M(3,h, 一 1) 志 i, 由 此 确定 对 于 所 有 n,M(3,n) 
的 准确 值 。 

15.[12]」] 二 又 合并 算法 的 步 又 H1 可 能 要 求 对 于 nn 宇 m ,计算 [Llg(n/m)j]。 说 明 要 如 何 做 , 才 
能 避免 使 用 除法 或 对 数 ,来 方便 地 计算 它 。 

16.[18] 当 1 三 mm 二 nn 二 10 时 ,对 于 什么 样 的 z 和 2,Hwang 和 Lin 的 二 又 合并 算法 是 最 优 
的 ? 

17. [M25 ] 证 明 (21)[ 提 示 : 这 个 不 等 式 不 是 非常 严格 的 ]。 

18.LM40 ] 分 析 二 又 合并 所 使 用 的 平均 比较 次 数 。 

> 19.[23] 证 明 M 函数 满足 (22) 。 

20.[20] 证明 如 果 对 所 有 mn 二 nn,M(m,n+1) 达 Mim+t+1,7n),; 则 对 所 有 mr 三 n,M(m,n+1) 
1+M(m,n)o 

21.[LM47|] 证 明 或 否定 (23),(24)。 

22. [M43 ] 分 析 为 合并 m 个 事物 和 个 事物 所 需要 的 极 小 平均 比较 次 数 。 

23.[M31]」 (E.Reingold) 设 和 Ai1,A,,…,A,| 和 |B1,B,,…,B,| 是 各 包含 ”个 元 素 的 集合 。 
试 考 虑 一 个 算法 , 它 试 图 仅 通 过 比较 元 素 的 相等 性 ,来 测试 这 两 个 集合 的 相等 性 。 于 是 ,此 算法 提 
出 了 一 个 问题 , 即 :对 某 个 i 和 j,“A;= Bi 吗 ?" ,根据 答案 的 不 同 ,此 算法 将 产生 不 同 的 分 支 。 

试 通过 定义 一 适当 的 敌手 ,证 明 任何 这 样 的 算法 ,在 它 最 坏 的 情况 下 至 少 必须 进行 (7 +1) 
次 比较 。 

24.[22 ](E.L.Lawler) 把 mx 个 元 素 同 % 宇 m 个 元 素 合 并 的 下 列 算法 ,所 需要 的 极 大 比较 次 
数 是 多 少 ?“ 置 1: 一 [| lg(n/m)」, 并 使 用 算法 5.2.4M 合并 AAA 和 了 Br 
其 中 g = Ln/2']。 然 后 把 每 个 A; 插入 它 在 B 当中 的 正确 位 置 。 

了 > 25.125] 假设 (zy) 是 具有 非 递 减 的 行 和 列 的 一 个 m x n 和 矩阵 :对 于 1 委 ;i< mzj 亿 zci+1);; 对 
于 1 二 j<n,zi 信 xi(;+1)。 证明, 如 果 所 有 的 比较 都 在 x 和 某 个 和 矩阵 元 素 之 间 进 行 , 则 M(m ,nn) 是 
为 确定 一 个 给 定 的 数 z 是 和 否 在 矩阵 中 出 现 ,所 需要 的 极 小 比较 次 数 。 


“5.3.3 极 少 比较 选择 


当 我 们 寻找 最 好 的 过 程 以 选择 ”个 元 率 的 第 上 个 最 大 者 时 ,出 现 了 一 类 类 似 的 
有 趣 问 题 。 

这 个 问题 的 历史 可 回 湖 到 C.L.Dodgson 牧师 关于 草地 网 球 锦标 赛 的 有 趣 的 ( 尽 
管 是 严肃 的 ) 试 验 , 它 出 现在 St.James,Gazette ,1883 年 8 月 1 日 ,$ 一 6 上 。Dodgson 
当然 比 Lewis Carroll 更 为 有 名 ,他 关心 的 是 在 网 球 锦标 赛 中 过 去 (而 且 现 在 仍然 如 
此 ) 颁 发 奖金 的 不 公平 方式 。 例 如 ,考虑 图 39 中 标号 为 01,02,…,32 的 32 位 选手 
之 间 进 行 的 一 场 典 型 的 “淘汰 赛 "。 在 决赛 中 ,选手 01 击败 了 05, 所 以 显然 选手 01 
是 冠军 而 且 他 应 获 头 等 奖 。 但 在 如 下 的 问题 上 却 出 现 了 不 公正 , 即 选手 05 通常 获 
得 二 等 奖 ,尽管 他 可 能 不 是 第 二 好 的 选手 。 在 这 场 锦 标 赛 中 ,即使 你 比 一 半 的 选手 
都 要 差 , 却 仍 有 可 能 获得 二 等 奖 。 事 实 上 ,如 同 Dodgson 所 注意 到 的 ,第 二 个 最 好 的 
选手 当 且 仅 当 他 在 锦标 赛 开始 时 和 和 冠军 处 于 不 同 的 两 半 中 时 才能 获 二 等 奖 ; 乔 
有 2” 个 选手 , 则 这 以 2? -11(2"”) 的 概率 出 现 , 所 以 不 是 第 二 好 的 选手 几乎 有 一 半 
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的 机 会 可 获得 二 等 奖 ! 如 果 半 决赛 的 失败 者 (图 39 中 的 25 和 17 号 选手 ) 竞 争 三 等 
奖 , 则 第 三 个 最 好 者 接受 三 等 奖 的 可 能 性 更 小 。 
冠军 = 01 
第 5 轮 (决赛 ) 01 05 
第 4 轮 01 25 05 17 
一 一 一 一 
第 3 轮 01 02 25 29 05 11 17 18 
一 一 一 一 一 
第 2 轮 01 03 02 04 25 26 29 30 05 06 11 12 17 20 18 21 


mm rm 由 由 让 由 下 
第 1 轮 0107031002080409252826272932303105150614111612131724202318192122 
图 39 32 位 选手 的 淘汰 赛 


因此 ,Dodgson 提出 用 传递 性 排 次 序 的 方法 来 设计 一 个 锦标 赛 ,以 确定 真正 的 第 
二 和 第 三 好 的 选手 (换言之 ,如 果 选 手 A 击败 选手 B, 而 选手 BB 击败 选手 C, 则 假定 
A 将 击败 C)。 他 设计 了 一 个 过 程 ,在 这 个 过 程 中 ,允许 失败 者 进一步 比赛 , 直到 确 
实 知道 他 们 劣 于 其 他 三 个 选手 为 止 。 图 40 所 示 为 Dodgson 方案 的 一 个 示例 , 它 是 
有 待 同 图 39 配合 进行 的 补充 比赛 。 该 方案 尽量 把 迄今 具 相 等 记录 的 选手 配对 比 
赛 ,并 且 和 避免 两 个 已 被 同一 个 选手 击败 的 选手 进行 比赛 。 例如 ,在 第 一 轮 中 ,16 败 
于 11 和 13 败 于 12; 在 第 二 轮 中 16 败 于 13 ,由 此 就 取消 了 16 ,因为 已 经 知道 他 低 于 
11,12 和 13 了 。 在 第 三 轮 中 ,不 允许 19 同 21 进行 比赛 ,因为 他 们 俩 都 为 18 所 击 
败 ,故我 们 不 能 自动 地 取消 19 对 21 的 失败 者 。 


三 等 奖 = 03 
第 9 轮 03 05 二 等 奖 = 02 
第 8 轮 02 05 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
第 7 轮 02 03 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
第 6 轮 02 06 03 17 
一 一 一 一 一 一 一 一 下 
第 S 轮 02 06 07 03 11 1725 
一 一 一 一 一 一 一 
第 4 轮 0220 12 06 23 07 29 03 26 1118 13 
| 下 广 一 一 一 一 一 一 一 
第 3 轮 2021 1219 06 27 23 31 07 08 03042630 13 14 
a 一 下 站 站 
第 2 轮 1922 2728 23 24 31 32 07 10 0809 19 16 1415 


图 40 ”Lewis Carroll 的 草地 锦标 赛 ( 同 图 39 合 在 一 起 进行 ) 
假如 我 们 能 说 Lewis Caroll 的 锦标 赛 确实 是 最 优 的 , 那 就 好 了 。 但 可 异 情 况 并 
非 如 此 。 他 在 1883 年 7 月 23 日 的 日 记 中 指出 ,他 用 了 大 约 6 个 小 时 来 排 方案 ,他 
觉得 “现在 我 们 的 (网 球 ) 赛 期 已 过 去 了 这 么 多 ,因此 比 起 写 出 来 , 倒 不 如 立即 就 进行 
比赛 更 好 些 。" 他 的 过 程 中 要 做 比 需要 的 还 多 的 比较 ,而且 该 过 程 没有 足够 精确 地 摘 
述 出 来 ,从 而 可 以 被 称 为 一 个 算法 。 另 一 方面 ,从 并 行 计算 的 观点 看 , 它 有 某 些 跨 为 
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有 趣 的 方面 。 而 且 对 于 一 个 网 球 锦标 赛 说 来 , 它 似 乎 是 一 个 卓越 的 计划 ,因为 他 取 
得 了 某 些 戏剧 性 的 效果 ;例如 ,他 确定 ,两 个 决赛 选手 应 该 不 参加 第 5 轮 比 赛 , 而 参 
加 第 6 轮 和 第 7 轮 中 进行 的 附加 比赛 。 但 是 比赛 的 组 织 者 大 概 认 为 这 个 提案 太 逻 
辑 化 了 ,因此 看 来 从 未 试用 过 Carroll 的 系统 。 而 代 之 使 用 一 个 “种 子 选手 ”方法 ,来 
把 最 好 的 选手 分 在 树 的 不 同 部 分 。 

在 1929 一 1930 年 的 数学 研讨 会 中 ,Hugo Steinhaus 提出 了 当 共 有 7 之 2 个 选手 
时 ,为 确定 在 一 次 锦标 赛 中 的 第 一 和 第 二 最 好 的 选手 ,所 需要 的 网 球 比 赛 的 极 小 场 
次 问题 。J. Schreier| Maithesis Polska 7(1932),154 一 160|] 给 出 了 至 多 需要 n 一 2+ 
[lg n | 场 比 赛 的 一 个 过 程 ,基本 上 使 用 了 我 们 称 做 树 选择 排序 方法 中 的 前 两 个 阶段 
同样 的 方法 (参见 5.2.3 小 节 , 图 23), 避 人 免 涉 及 一 % 的 多 余 比较 。Schreier 还 宣称 ， 
n 一 2+|[lg nn | 是 最 好 的 ,但 他 的 证 明 如 同 J. Slupecki 试图 另 给 的 证 明 [Colloguium 
Mathematicum 2(1951),286 一 290] 一 样 是 不 正确 的 。32 年 之 后 ,S.S. Kislitsyn 最 后 
发 表 了 一 个 正确 的 但 相当 复杂 的 证 明 [Sibirskiy Mat. Zhurnal ,S$(1964) ,3$$7 一 9564] 。 

令 V,(n) 表 示 为 确定 n 个 元 素 的 第 i 个 最 大 者 所 需要 的 极 小 比较 次 数 ,1 志 1 过 
n ,并 令 W,(n) 是 为 了 确定 最 大 者 ,第 二 个 最 大 者 ,… ,以 及 第 1 个 最 大 者 等 全 部 1 
个 元 素 所 需要 的 极 小 比较 次 数 。 由 对 称 性 ,我 们 有 


Vi(n) = Vri-i(n) (1) 
而 且 显 然 有 
Vi(n) = Wi(n) (2) 
V,(n) 过 W,(n) (3) 
W,(n) = W,-1(n) = S(n) (4) 
在 引 理 5.2.3M 中 我 们 已 经 发 现 
Vi(n)=n-1 (5) 


实际 上 ,关于 这 个 事实 ,有 一 个 惊人 地 简单 证 明 , 因 为 在 一 次 锦标 赛 中 ,除了 冠军 外 ， 
每 个 选手 都 至 少 输 了 一 场 ! 通过 扩展 这 一 思想 ,并 使 用 一 个 “敌手 ” ,就 可 以 不 太 困 
难 地 证 明 Schreier-Kislitsyn 定理 。 

定理 $ 当 nn 之 2 时 ,Vy(n)=W,(n)=n-2+|lgn |。 

证 明 假设 及 个 选手 参加 一 次 锦标 赛 。 这 个 锦标 赛 通过 某 种 给 定 的 过 程 确 
定 了 第 二 个 最 好 的 选手 ,并 令 a; 是 输 了 j 场 或 更 多 场 比赛 的 选手 数 。 于 是 ,比赛 的 
总 场 数 是 al + az+ as+…。 如果 不 同时 确定 出 冠军 来 的 话 ,我 们 不 能 确定 第 二 个 
最 好 的 选手 (参见 习题 2) ,所 以 用 以 前 的 论证 说 明 ai = n 一 1。 为 完成 这 个 证 明 , 将 
证 明定 有 某 个 比赛 结果 的 序列 ,使 得 cz 之 ljg n 1=- 1。 

假设 在 锦标 赛 结 束 时 ,冠军 已 经 迎战 (并 击败 了 )p 个 选手 ;这 些 人 当中 有 一 个 
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是 第 二 个 最 好 者 ,那么 这 些 人 中 的 其 他 人 就 另外 至 少 输 了 一 场 , 所 以 az? 之 户 -1。 因 
此 可 以 通过 这 样 一 个 方法 来 完成 这 个 证 明 , 即 通过 构造 一 个 敌手 ,该 敌手 以 这 样 一 
个 办 法 来 制定 比赛 的 结果 , 即 冠军 至 少 必 须 同 | lg N | 个 其 他 人 较量 。 

设 此 敌手 在 下 列 情况 下 断言 A 比 B 更 好 , 即 : 如 果 A 以 前 未 败 过 ,而 B 至少 输 
了 一 次 ,或 者 如 果 两 者 都 未 败 过 而 此 时 B 比 A 赢得 少 些 。 在 其 它 情况 下 ,敌手 可 以 
做 出 同 某 个 偏 序 相 一 致 的 任何 判断 。 

考虑 整个 锦标 赛 的 结果 ,这 次 锦标 赛 的 角逐 已 经 为 这 样 一 个 敌手 所 决断 。 即 当 
日 仅 当 A =B 或 A 强 过 第 一 个 击败 B 的 选手 时 我 们 说 “A 强 于 B"( 按 这 个 说 法 ,对 
每 个 选手 来 说 ,只 有 第 一 次 败绩 是 关键 的 ,失败 者 随后 的 比赛 则 被 忽略 。 按 照 敌 手 
的 规则 ,任何 首先 击败 另 一 个 人 的 人 都 必须 以 前 未 败 过 )。 由 此 得 出 ,赢得 头 p 场 的 
人 ,在 这 上 p 场 比赛 的 基础 上 至 多 强 过 2? 个 选手 (这 对 于 p=0 是 显然 的 ,而 对 于 p> 
0, 第 p 次 比赛 是 迎战 以 前 败 过 了 的 或 至 多 强 过 22 个 选手 的 某 个 人 )。 和 冠军 强 于 
每 个 人 ,所 以 他 必须 至 少 赢 得 了 | lg ”| 场 比赛 。 | 


在 极 小 化 极 大 的 意义 下 ,定理 S 完 全 解决 了 求 第 二 个 最 好 选手 的 问题 。 事 实 
上 ,习题 6 说 明 , 当 预先 已 知 诸 元 素 的 一 个 任意 偏 序 时 ,对 于 求 出 一 个 集合 的 第 二 个 
最 大 的 元 素 所 需要 的 极 小 比较 次 数 , 有 可 能 给 出 一 个 简单 的 公式 。 


如 果 1 >2 如 何 ? 在 上 边 引 证 的 文章 中 ,Kislitsyn 考虑 过 上 的 更 大 的 值 并 证 明 
W,(n) 三 no-tt+ > ， | lg 了 | 对 于 nn 宇 1 (6) 


对 于 t=1 和 :=2, 已 经 看 到 ,在 这 个 公式 中 等 式 实际 上 成 立 ; 对 于 t=3, 它 能 稍 加 
改进 (见习 题 21)。 

我 们 将 说 明 树 选择 的 前 :个 阶段 至 多 需要 nn 一 t+,41- 41<j<n| lg j| 次 比较 ,并 
忽略 涉及 - co 的 所 有 比较 ,以 证 明 Kislitsyn 定理 。 有 意思 的 是 ,由 等 式 5.3.1-(3)， 
当 z=7 以 及 当 t= nn 一 1 时 ,(6) 的 右边 等 于 B(n); 因 此 , 树 选择 和 二 元 插入 在 排序 
下 给 出 同样 的 上 限 , 尽 管 它们 是 十 分 不 同 的 方法 。 

令 a 是 具有 个 外 部 节点 的 扩展 二 又 树 , 并 令 x 是 11,2,…,nj1 的 一 个 排列 。 
以 对 称 的 次 序 从 左 到 右 地 把 x 的 元 素 放 进 外 部 节点 ,并 像 在 树 选择 中 那样 按 淘汰 锦 
标 赛 的 规则 填 入 内 部 节点 。 当 得 到 的 树 被 施 以 重复 的 选择 操作 时 , 它 就 定义 了 一 个 
序列 c，1,cs-2,"…,c1, 其 中 6c; 是 当 元 素 ) +1 已 被 - ce 代替 时 ,为 把 元 素 j) 引 到 树 
的 根部 所 需要 的 比较 次 数 。 例 如 ,如果 a 是 树 


(7) 
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而 且 如 果 x=5 3142, 则 逐次 得 到 如 下 的 树 





ca4=| Cc3 二 2 c2 一 0 c1 三 0 
如 果 x 换 成 3 15 4 2, 则 序列 cyc3c2c1 将 是 2110。 容 易 看 出 c| 总 是 零 。 
令 y(a,7) 是 由 a 和 确定 的 多 重 集合 {c,_1,c。2,"…,c1|。 如 果 


站 


而 且 如 果 元 素 1 和 2 不 同时 在 w“ 中 出 现 ,也 不 同时 在 w 中 出 现 , 则 容易 看 出 对 于 天 
当 的 排列 x 和 x 


pa r) = (pa rr)+1) 出 par )+1) 出 10| (8) 


其 中 (y+1) 表 示 对 w 的 每 个 元 素 加 1 得 到 的 多 重 集合 (参见 习题 7)。 另 一 方面 ,如 
朱 元 素 1 和 元 素 2 都 出 现 于 a 中 , 则 有 
Anal) = (yl(a ,xr )+e) Yuya ,x )+1) 出 10| 
其 中 jy +e 表示 把 1 加 到 jy 的 某 些 元 素 而 把 0 加 到 其 它 元 素 得 到 的 一 个 多 重 集 合 。 
当 1 和 2 都 出 现 于 a 中 时 ,类 似 的 公式 成 立 。 我 们 说 多 重 集合 yi 高 于 如果 mi 
和 js 两 者 有 相同 的 元 素 个 数 ,而 且 对 于 所 有 的 ,i 的 第 & 个 最 大 的 元 素 大 于 或 
等 于 ys 的 第 上 个 最 大 的 元 素 ; 而 且 , 在 下 述 意 义 下 ,对 于 所 有 的 排列 x ,定义 jy(a) 
为 最 高 的 w(a,r): 对 所 有 的 x ,py(a) 高 于 jy(a,x), 而 且 对 于 某 个 x ,jy(a)= (a， 
fx)。 上 边 的 公式 表明 
x(L)=$,p(O OO)= (py(a )+1) 出 (pa )+1T) 出 !10| (9) 
, 、, 
因此 ,y (4) 十 从 2 的 根 到 它 的 内 部 节点 的 所 有 距离 的 多 重 集合 。 
只 要 读者 遵循 上 面 的 思路 ,现在 就 能 看 出 ,我 们 已 为 Kislitsyn 定理 (6) 的 证 明 做 
好 了 准备 ;确实 W,(n) 小 于 或 等 于 n 一 1 加 jy(a) 的 :一 1 个 最 大 元 素 ,其 中 4 是 在 
树 选择 排序 中 使 用 的 任何 树 , 当 
ul(a) = {Llg1j,Llg2j,.%,llg (n — 1)j| 
={[lg2|-—1,llg3|—1,.…,[lg nl|—1| (10) 
时 ,可 以 取 a 为 具有 7? 个 外 部 节点 的 完备 二 叉 树 (参见 2.3.4.5 小 节 )。 当 考虑 这 个 
多 重 集 合 的 上 -1 个 最 大 的 元 素 时 ,就 得 到 公式 (6)。 
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Kislitsyn 定理 给 出 了 对 于 双 ,(2) 的 一 个 好 的 上 限 ; 他 注意 到 V3(5)=6< W 
(5)=7, 但 是 他 未 能 得 到 比 起 对 于 W,(n) 来 对 于 Vi,(n ) 的 一 个 更 好 的 上 限 。A. Ha- 
dian 和 M. Sobel 发 现 了 使 用 替代 选择 ,而 不 用 树 选 择 ( 见 5.4.1 小 节 ), 来 解决 这 个 
问题 的 一 个 办 法 。 他 们 的 公式 | Univ. of Minnesota, Dept. of Statistics Report 121 
(1969)] 


V(n)n-ti+(t-1)le (n+2-1)| n 宇 1 (11) 


与 (6) 中 W,(n) 的 Kislitsyn 的 上 限 类 似 , 只 是 在 (6) 的 和 中 的 每 项 都 已 换 成 最 小 的 
项 。 
通过 使 用 下 列 构造 , 即 可 证 明 Hadion 和 Sobel 定理 (11): 首 先 建 立 对 于 n 一 t+ 
2 个 项 目的 一 次 淘汰 锦标 赛 的 二 又 树 ( 这 花费 nn 一 :+1 次 比较 )。 最 大 的 项 目 大 于 
n 一 t+ 1 个 其 它 项 目 , 所 以 它 不 可 能 是 第 zi 个 最 大 的 。 不 管 它 出 现在 树 的 哪 一 个 外 
部 节点 处 ,都 以 保留 的 1 一 2 个 元 素 之 一 代替 它 , 在 由 此 所 得 的 n 一 t+2 个 元 素 中 ， 
找 出 其 最 大 的 元 素 ;这 至 多 要 求 [lg(n +2 一 1)1| 次 比较 ,因为 仅仅 需要 重新 计算 树 中 
的 一 条 路 径 。 对 于 保留 的 每 个 元 素 重 复 这 个 操作 ,总 共 重 复 上 -2 次 。 最 后 ,以 -co 
代替 当前 最 大 的 元 素 ,并 确定 剩 下 的 交 +1=-z 个 元 素 中 的 最 大 者 ;这 至 多 要 求 | lg(z 
+2-1)1-1 次 比较 ,而 且 它 把 原来 集合 的 第 i 个 最 大 元 素 引 癌 树 的 根 。 把 这 些 比 
较 加 起 来 就 得 到 (11)。 
在 关系 (11) 中 ,每 当 n+1 一 t 给 出 更 好 的 值 时 (如 同 n=6,:=3 时 那样 ) ,我 们 
在 式 子 右边 当然 将 以 n +1 一 1 来 代替 1:。 奇 怪 的 是 ,这 个 公式 对 于 Vj(13) 给 出 了 
比 对 于 Ve(13) 更 小 的 限 。 对 于 ” 委 6,(11) 中 的 上 限 是 精确 的 ,但 当 ”和 + 上 变 大 时 ， 
有 可 能 得 到 对 于 V,(n) 的 好 得 多 的 估计 。 
例如 ,下 列 漂亮 的 方法 (由 David G. Doren 给 出 ) 可 以 用 来 说 明 Vs(8) 二 12。 设 
元 素 为 Xi …,Xas; 首 先 比 较 Xi:X， 和 XX3: Xs 以 及 两 个 胜利 者 ,并 对 Xi: Xe 和 XX; 
: Xs 以 及 它们 的 胜利 者 也 同样 进行 比较 。 重 新 标 出 这 些 元 素 ,使 得 XiI< X,< X4 > 
XX;, Xs 之 Xo 之 Xs> Xj, 然 后 比较 X,:X6; 由 对 称 性 ,假定 X; < X6, 于 是 我 们 有 配置 


5 6 8 


7 
4 


3 
(现在 XX] 和 和 Xg 已 脱离 比赛 ,我们 必须 求 | Xx,,… ,Xjy| 的 第 三 个 最 大 者 )。 比较 XX,: 
X7 并 丢弃 较 小 者 ;在 最 坏 的 情况 下 ,我 们 有 X2<X7? ,而 且 必 须 求 出 


S 一 0 


l 2 


@7 
3 9 -一 一 人 二 


的 第 三 个 最 大 者 。 这 可 在 另外 V3(5) -2=4 次 比较 中 完成 ,因为 实现 V3(5)=6 的 
(11) 的 过 程 是 通过 比较 两 个 不 相交 的 元 素 对 开始 的 。 
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这 种 类 型 的 其 它 技 巧 可 用 来 产生 表 1 所 示 的 结果 ;尚未 发 明 一 般 的 方法 。1996 
年 ,W.Gasarch,W. Kelly 和 W. Pugh[SIGACT News 27,2(June 1996),88 一 96], 利 用 一 
个 计算 机 查找 ,证 明 对 于 V4(9) = Vs(9) 和 V5(10) = Ve(10) 所 列 的 值 是 最 优 的 。 

当 上 很 小 时 ,David G. Kirkpatrick 已 经 得 到 了 对 于 选择 问题 的 相当 好 的 下 界 
LACM 28(1981) ,150 一 165] ,如 果 2 委 上 委 (2 +1)/2 ,我 们 有 





/一 了 
V,(n) 宇 n+t -3+ S\Tlg 2 — +4] (12) 
,=0 t+ 
在 他 的 博士 论文 [U.of Toronto,1974] 中 ,Kirkpatrick 还 证 明了 
Va(n) Sntltlle i ltllg :a (13) 


对 于 所 有 整数 n 的 lg 74% ,这 个 上 限 匹 配 下 限 (12) ,而 且 它 至 多 比 (12) 超 过 1。 


Kirkpatrick 的 分 析 使 人 很 自然 地 去 猜测 ,对 于 所 有 7 >4,(13) 中 的 等 式 成 立 ,但 是 
Jutta Eusterbrock 发 现 令 人 惊讶 的 反例 V;(22) = 28[Discrete Applied Math. 41 
(1993) ,131 一 137]。 对 于 较 大 的 上 值 ,S$S.W.Bent 和 J.W.John 发 现 改进 了 的 下 限 


(参见 习题 27 ) : 
Vi(n)n+m-2VAm], m=2+)le(( n+- (14) 


这 个 公式 特别 证 明了 





V_ (mn) 之 1 + alg 一 + (1 — a)lg- ! - 
表 1 对 于 V(n) 已 知 的 最 好 上 界 


Vi(n) V,(n) V;(n) Va(n) Vs(n) Ve(n) V7(n) Vel(n) Vo(n) Vio(n) 


上. + O(n) (15) 


过 


1 0 

2 l 1 

3 2 3 2 

4 3 4 4 3 

5 4 6 6 6 4 

6 5 7 8 8 7 5 

7 6 8 10 10 10 8 6 

8 7 9 11 12 12 11 9 7 

9 8 11 12 14 14° 14 12 11 8 

10 9 12 14 15 16° 16 15 14 12 9 





在 这 些 情况 下 ,习题 10-12 给 出 改进 等 式 (11) 的 构造 。 
xx 见 K., Noshita,Trans.of the IECE of Japan ,E59,12(DEC.1976),17~18 
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一 个 线性 方法 “ 当 n 是 奇数 且 1 =Tzj/21] 时 ,第 ;个 最 大 的 (以 及 第 个 最 小 的 ) 
元 素 称 做 中 值 。 护照 (11), 我 们 可 以 在 ~ 地 nlg n 次 比较 中 求 出 个 元 素 的 中 值 ; 


尽管 只 要 求 少 得 多 的 信息 ,但 这 大 约 只 比 排序 快 一 倍 。 若 干 年 来 许多 人 一 直 致 力 于 
寻求 当 寺 和 ?7 很 大 时 对 于 (11) 的 改进 。 最 后 ,在 1971 年 ,Manuel Blum 发 现 了 仅仅 
需要 O(nlog log 7 ) 个 步骤 的 一 个 方法 。Blum 解决 这 个 问题 的 途径 ,提示 了 一 类 新 
技术 , 它 导致 了 R. Rivest 和 R. Tarjan 给 出 的 下 列 构造 [J. Comp. and Sys. Sci. 7 
(1973),448~461 ] : 


定理 L 妆 >32 肝 ,对 于 1 过 上 委 2,V (2 ) 委 152 -163。 
证 明 当 ? 很 小 时 ,这 定理 是 显然 的 ,因为 对 于 32< zz 委 220 有 V(n) 志 S$S(n) 
三 10n 夺 15n -163。 通 过 加 上 至 多 13 个 虚构 的 “ - co ”元 素 , 对 于 某 个 整数 g 宇 73， 
我 们 可 以 假定 n=7(2g+1)。 下 列 方法 可 以 用 来 选择 第 i 个 最 大 的 元 素 : 
步骤 1 把 这 些 元 素 分 成 每 组 7 个 元 素 的 2g+1 组 ,对 每 组 排序 。 这 至 多 花费 
13(2g 十 1) 次 比较 。 
步骤 2 求 在 步骤 1 中 得 到 的 2g+1 个 中 值 元 素 的 中 值 , 称 它 为 x。 通 过 对 9 
用 归纳 法 可 证 ,这 至 多 花费 V,;1(2g +1) 二 30g -148 次 比较 。 
步骤 3 不 同 于 zz 的 n 一 1 个 元 素 现在 已 经 分 成 为 3 个 集合 ( 见 图 41): 
4g + 3 个 已 知 大 于 x 的 元 素 ( 区 域 B); 
4g + 3 个 已 知 小 于 z 的 元 素 (区 域 C); 
69 个 元 素 ,它们 同 z 的 关系 是 未 知 的 (区 域 A、D)。 


a 


图 41 Rivest 和 Tarjan 的 选择 算法 (gq = 4) 


通过 进行 4g 次 附加 的 比较 ,我 们 就 能 确切 地 说 出 区 域 A 和 D 中 哪些 元 素 小 于 z 
(首先 把 x 和 每 个 三 元 组 的 中 间 元 素 做 比较 )。 
步骤 4 对 某 个 ,现在 找到 了 > 个 大 于 z 的 元 素 和 nn 一 1 一 + 个 小 于 x 的 元 素 。 


" 203 : 


第 5 章 排序 





如 果 t=r+1, 则 xz 是 答案 ;如 果 1<x+1, 则 需要 求 r 个 大 的 元 素 中 第 4 个 最 大 的 ， 
如 果 : 二 r+1, 则 需要 求 n 一 1 一 + 个 小 元 素 中 的 第 (1 -1- >) 个 最 大 的 。 要 点 是 / 
和 nn 一 1 一 r 两 者 都 小 于 或 者 等 于 10g +3( 区 域 A 和 DD 加 上 B 或 C 的 大 小 )。 因 此 ， 
通过 对 g 用 归纳 法 可 证 ,这 个 步骤 至 多 需要 15(10g +3) - 163 次 比较 。 

比较 的 次 数 至 多 为 

13(2g + 1)+30g—148+4g+15(l0g +3)- 163 = 15(14g - 6)— 163 
由 于 我 们 是 从 至 少 14g -6 个 元 素 开 始 的 ,证 明 就 完成 了 。 | 

定理 L 证 明了 选择 总 可 在 “线性 时 间 ” 内 完成 , 即 证 明了 V,(n)= O(n)。 当 
然 ,这 个 证 明 所 使 用 的 方法 稍微 有 些 粗糙 ,因为 它 丢 弃 了 步骤 4 中 好 的 信息 。 关 于 
这 一 问题 的 研究 已 经 得 到 更 漂亮 的 上 限 ; 例 如 ,A. Sch5nhage,M. Paterson 及 N. Pip- 
penger|J. Comp. Sys. Sci. 13(1976) ,184 一 199] 已 经 证 明 ,为 求 平 均值 所 需要 的 极 大 
比较 次 数 至 多 是 3n + O(n log n)”4A。 关 于 一 个 下 限 和 更 新 的 结果 的 参考 文献 , 参 
见习 题 23。 


平均 数 除了 把 极 大 比较 次 数 极 小 化 外 ,我 们 还 可 以 要 求 -一 个 算法 ,对 于 随机 


电 对 称 的 


26] :6) [EA Bd 
3 3 4 12 3 8 2 
4 1 


图 42 选择 |X, ,Xs,Xs,Xs,Xs, Xe 的 第 二 个 最 大 者 的 过 程 , 平 均 使 用 6 了 次 比较 。 


每 个 “对 称 的 "分 支 和 它 的 兄弟 相同 ,只 是 名 字 按 某 种 适当 的 方式 排列 过 。 
当 已 知 X 是 第 二 个 最 大 者 和 X 是 最 大 者 时 ,外 部 节点 包含 “j &”; 
写 在 每 个 外 部 节点 下 的 数字 表示 通 向 这 个 节点 要 做 多 少 次 排列 
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次 序 下 的 对 象 ,使 得 平均 比较 次 数 极 小 化 。 和 通常 一 样 ,这 个 问题 要 比 极 小 化 极 大 
值 问 题 难 得 多 ;确实 ,甚至 对 于 上 =2 的 情况 极 小 化 平均 值 问 题 也 尚未 解决 。Claude 
Picard 在 他 的 Théorie des Questionnaires (1965 ) 一 书 中 提 到 了 这 个 问题 ,而 Milton 
Sobel 做 了 深入 的 剖析 [Univ. of Minnesota, Dept. of Statistics, Reports 113 及 114 
(November, 1968 ); Revue Franscaise d’” Automatique, Informatique et Recherche 


Opérationnelle 6,R-3(1972 年 12 月 ) ,23 一 68j。 

Sobel 构造 了 图 42 的 过 程 , 它 平均 仅仅 使 用 6 广 次 比较 就 求 得 了 6 个 元 素 的 第 
二 个 最 大 者 。 在 最 坏 的 情况 下 ,需要 进行 8 次 比较 ,而 这 比 Va(6) = 7 要 坏 ; 事 实 上 ， 
D.Hoey 所 做 的 一 个 穷尽 的 计算 机 查找 已 经 证 明 ,对 于 这 个 问题 的 最 好 的 过 程 ,如 果 
限定 至 多 做 7 次 比较 , 则 平均 使 用 6 窟 次 比较 。 于 是 ,在 同时 地 极 小 化 极 大 值 和 极 


小 化 平均 值 两 种 意义 下 ,似乎 没有 求 6 个 元 素 的 第 二 个 最 大 元 素 的 最 优 过 程 。 
令 V,(n) 表 示 为 求 n 个 元 素 的 第 : 个 最 大 者 所 需要 的 极 小 平均 比较 数 。 如 同 
D. Hoey 所 计算 的 那样 , 表 2 示 出 了 对 于 小 的 的 一 些 精确 值 。 
表 2 进行 选择 所 需 的 极 小 平均 比较 次 数 


Vs;(n) Va(n) Vs(n) Vel(n) V,(n) 





R.W. Floyd 在 1970 年 发 现 ,n 个 元 素 的 中 值 ,平均 说 来 ,可 以 仅仅 通过 n+ 


O(n 3log n ) 次 比较 求 得 。 几 年 后 ,他 和 R.L.Rivest 改进 了 这 个 方法 并 且 构 造 了 一 
个 优美 的 算法 来 证 明 
V(n) 寺 n+t+min(t,n -1)+ O(vV nlogn) (16) 
(参见 习题 13 和 29)。 
根据 对 1 = 2 的 一 种 Sobel 构造 的 推广 ,David W. Matulal Washington Univ. 
Tech. Report AMCS-73-9(1973)] 用 另 一 种 方法 证 明 
Vw(za) 委 2+ilgztil(IL+lnlny7) (17 ) 
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因此 ,对 于 固定 的 i ,平均 的 工作 量 可 减少 到 仅仅 用 n + O(log log nn ) 次 比较 。 对 于 
V,(n) 的 一 个 优美 的 下 限 见 于 习题 25。 

排序 和 选择 问题 是 一 个 更 具 一 般 性 问题 的 特殊 情况 ,该 问题 即 : 求 同一 个 给 定 
的 偏 序 相 一 致 的 ”个 给 定 元 素 的 一 个 排列 。A.C. Yao[SICOMP 18(1989) ,679 一 
689 已 经 证 明 ,如 果 偏 序 是 由 有 ” 个 顶点 和 个 连通 分 量 的 一 个 无 回路 有 向 图 G 
定义 的 , 则 为 解决 这 样 一 个 问题 ,在 最 坏 情况 下 和 平均 情况 下 ,所 需要 的 极 小 比较 次 
数 ,总 是 B(lg(Cz! /T(G)+n 一 &), 其 中 T(G) 是 同 偏 序 一 致 的 排列 的 总 个 数 (G 
的 拓 朴 排序 的 个 数 )。 


习题 


1.[1$] 在 Lewis Carroll 的 锦标 赛 中 (图 39 和 图 40) ,为 什么 选手 13 被 淘汰 ,尽管 在 第 三 轮 中 

他 琶 了 ? 
了 2.LM25 ] 证 明 , 在 通过 一 系列 的 比较 , 找 出 了 ”个 元 素 的 第 上: 个 最 大 者 之 后 ,我 们 还 知道 哪 4 

一 1 个 元 素 是 大 于 它 的 , 哪 ”- 上 个 元 素 是 小 于 它 的 。 

3.[20] 证 明 , 对 于 111:<n,V(n)>V(n-1) 和 W,(n)> W,(n -1)。 

4.[M25 ](F.Fussenegger 和 H.N.Gabow) 证 明 W,(n) 之 n 一 :+[lgn 二 + |。 

5.[10] 证 明 Wy(n) 过 V3(n)+1。 

6.[M26 ](R.W.Floyd) 给 定 n 个 不 同 的 元 素 1X1，,…,X, | 以 及 某 些 (i,;) 对 的 关系 X; < X， 
的 一 个 集合 ,我 们 希望 找 出 第 二 个 最 大 的 元 素 。 如 果 已 经 知道 对 j} 隆 & 有 X;<< 义 ,及 X; < X, 则 
X; 不 可 能 是 第 二 个 最 大 的 元 素 , 所 以 它 可 被 消去 。 得 到 的 关系 有 一 个 如 同 


一 二 汪 光 学 


的 形式 , 即 ,可 以 由 一 个 多 重 集合 (Li,/,,… ,1 ) 表 示 的 m 组 元 素 ; 第 ;j 组 包含 +1 个 元 素 ,已 知 
它们 当中 的 一 个 大 于 其 它 的。 例如 ,上 边 的 配置 可 以 由 多 重 集合 (0,1,2,2,3,5) 来 描述 ; 当 不 知道 
任何 关系 时 ,我 们 及 个 零 的 一 个 多 重 集合 。 

令 f(L1,L2，,… ,la) 是 为 找 出 这 样 一 个 偏 序 集合 的 第 二 个 最 大 的 元 素 所 需要 的 极 小 比较 数 ， 
证 明 

fs sh) = m2+Tlg (21 + 2 + + 2im)|] 

[提示 :证 明 , 最 好 的 策略 总 是 比较 两 个 最 小 组 的 最 大 元 素 , 直 到 把 mx 归结 成 1 为止 ;对 11 + 7+ 
二 1, +2m 使 用 归纳 法 ]。 

7.[LM20] 证 明 (8)。 

8.[M21 ] Kislitsyn 公式 (6) 是 以 使 用 具有 nn 个 外 部 节点 的 完备 二 又 树 进行 树 选择 排序 为 基 
础 的 。 对 任何 1: 入 ,以 某 个 其 它 树 为 基础 的 一 个 树 选择 算法 将 给 出 更 好 的 上 限 吗 ? 

》9.[20」] 使 用 Hadian 和 Sobel 的 替代 选择 方法 [参见 (11)], 画 出 在 至 多 6 步 中 即 找 出 $ 个 元 

素 的 中 值 的 比较 树 。 
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10.[35] 证 明 可 以 在 至 多 10 步 之 内 求 出 7 个 元 素 的 中 值 。 

11.138 ](K. Noshita) 证 明 可 以 在 至 多 14 步 之 内 求 出 9 个 元 素 的 中 值 ,而 这 14 步 的 前 7 步 和 
Doren 的 方法 一 样 。 

12.f21 ](Hadian 和 Sobel) 证 明 : V3(n) 达 V3(n 一 1)+2[ 提 示 : 由 去 掉 |X,X,,X;3,X4| 之 最 
小 者 开始 ]。 

13.[HM28](R.W.Floyd) 证 明 , 如 果 使 用 一 个 递归 定义 的 方法 ,从 找 出 {Xi，,… ,X231 的 中 


值 元 素 开 始 , 则 可 以 通过 平均 了 n+ O(n 3log a) 次 比较 找 出 1X1,…,X,| 的 中 值 。 


> 14.[20](M. Sobel) 设 U,(n) 是 为 找 出 n 个 元 素 的 第 :个 最 大 者 (但 无 须知 道 它们 的 相对 次 
序 ) ,所 需要 的 极 小 比较 数 。 证 明 U,(5) 志 5。 
15.[22 ](I. Pohl) 假设 我 们 对 空间 (而 不 是 时 间 ) 的 极 小 化 感 兴趣 。 如 果 每 个 元 素 都 填 人 一 
个 字 ,而 且 如 果 这 些 元 素 逐 个 地 输入 到 一 个 寄存 器 中 , 则 为 了 计算 ”个 元 素 的 第 上 个 最 大 者 ,至少 
需要 多 少 存 储 单元 ? 


16.125](L Pohl) 证 明 ,至 多 使 用 全 z1-2 次 比较 , 便 可 以 找 出 个 元 素 的 集合 的 极 大 和 极 


小 ;而 且 这 个 比较 数 不 可 能 被 降低 [提示 :这 样 一 个 算法 的 任何 阶段 都 可 表示 作 一 个 四 元 组 (a ,2， 
c,d), 其 中 a 元素 尚未 被 比较 ,8 已 经 获胜 过 但 是 尚未 失败 过 ,c 已 经 失败 过 而 尚未 获胜 过 ,a 有 
胜 有 负 。 试 构造 一 个 适当 的 敌手 j。 


17.[20 ](R.W. Floyd) 试 证 使 用 至 多 [六 1 -kl+E,il cicnl lg j1+ D+-4i<<rl lg j | 次 


比较 ,就 有 可 能 依次 地 选择 n 个 元 素 的 一 个 集合 的 个 最 大 和 1 个 最 小 的 元 素 。 

18.[M201 如 果 在 定理 L 的 证 明 中 使 用 了 大 小 为 5, 而 不 是 7 的 组 , 则 将 得 到 什么 定理 ? 

19.[M42 |] 把 表 2 扩充 到 n=8。 

20.[M47] 当 n 一 吕 时 ,V,(n) 一 n 的 渐 近 值 是 多 少 ? 

21.[32] (P.V.Ramanan 和 L. Hyafil) 证 明 , 当 之: 宇 2 时 , W,(2* +2471 7 1) 人 2*++2** + 
(1 一 1)(k 一 1); 并 且 证 明 , 由 于 习题 4, 等 式 对 于 无 穷 多 个 有 和 + 成 立 [提示 :保持 两 个 淘汰 树 并 且 
适当 地 合并 它们 的 结果 |]。 

22.[24 ](David G.Kirkpatrick) 试 证 明 , 当 4:2:<n--1 志 5:2* 时 ,对 于 V3(n) 的 上 限 (11) 可 
减 1 如 下 :(i) 构 造 大 小 为 2: 的 4 个 淘汰 树 。(ii) 求 4 个 极 大 值 的 极 小 ,并 抛弃 它 的 树 的 所 有 2° 个 
元 素 。(iii) 使 用 已 知 信息 ,构造 大 小 为 n -1-2 的 一 棵 淘汰 树 。(iv) 像 在 (ii) 的 证 明 中 那样 继 
续 。 

23.[M49] 当 mn 一 时 ,Vr,j1 的 渐 近 值 是 多 少 ? 

24.[HM40] 斌 证明, 对 于 1 声 [n/21,V,(n) 生 n+1+O(Vnlog n)。 提 示 : 证 明 , 通 过 这 许 
多 的 比较 ,我 们 事实 上 可 以 求 出 第 (1 -Vtin 7 ) 和 第 [1 + Vln n | 个 元 素 , 在 这 之 后 就 可 容易 地 
确定 第 上 个 的 位 置 。 

p25.[M35] (W.Cunto 和 J.I. Munro) 试 证 明 , 当 1 二 [n/21 时 ,V(n) 之 n+1 一 2。 

26.[M321(A.Schonhage,1974) (a) 使 用 习题 14 的 符号 ,证 明 对 于 nn 之 3, U,(n) 之 min(2+ UU, 
(nn 一 1),2+ U,_1(n 一 1))[ 提 示 : 只 要 当前 的 偏 序 不 是 完全 由 具有 :或 .一 形式 的 分 量 组 成 的 ， 
就 由 减 小 成 nn -1, 由 此 构造 出 一 个 敌手 1。 

(b) 类 似 地 ,对 于 之 5, 通 过 构造 处 理 分 量 :，. 一 ，, 之 , “一 的 一 个 敌手 ,证 明 

Un) 宕 min(2+ LU-1l),3+U -1),3+ U,(n 一 2)) 
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(c) 因 此 ,对 于 1 二 1 过 n/2,U(n) 之 n+t+min([(n 一 1)/24,1) 一 3[ 当 VV 或 W 代替 UU 时 ,在 
(a) 和 (b) 中 的 不 等 式 也 适用 ,因此 建立 了 表 1 中 的 若干 个 表 项 的 最 优 性 ]。 

27.[M34] 随机 化 敌手 是 一 个 这 样 的 敌手 算法 , 当 它 进行 决策 时 ,人 允许 它 使 用 硬币 投掷 。 

(a) 设 A 是 一 个 随机 化 敌手 ,并 令 Pr(1) 是 A 达到 一 个 给 定 的 比较 树 的 叶 1 的 概率 。 试 证 明 ， 
如 果 对 于 所 有 的 1,Pr(1) 志 p, 则 这 个 比较 树 的 高 度 之 lg(1/p)。 

(b) 给 定 有 待 在 稍 后 选择 的 整 参数 g 和 ， ,对 于 选择 ”个 元 素 第 : 个 最 大 者 的 问题 ,考虑 下 列 
敌手 : 

Al. 选择 ! 个 元 素 的 一 个 随机 集合 T; 所 有 |(” ) 种 可 能 性 是 同等 可 能 的 (我 们 将 确保 :1 个 


最 大 元 率 属 于 全 )。 设 S= {1,…,n|\ 械 是 其 它 元 素 ,并 置 So 一 S ,To 一 T;So 和 To 将 
表示 那些 可 能 变 成 第 : 个 最 大 的 元 素 。 

A2. 当 |To| >r 时 ,判定 所 有 比较 z:y 如 下 :如 果 zES 和 >yE 了 ,就 说 ,z<y。 如 果 zE3S 
和 yeE S , 掷 一 次 硬币 来 判定 ,如果 较 小 的 元 素来 自 So 就 从 So 中 删 去 这 个 元 素 。 如 果 > 
ET 和 yE€ET, 撕 一 次 硬币 来 判定 ,如 果 较 大 者 来 自 To 就 从 To 删 去 这 个 元 素 。 

A3. 只 要 | To | = ,就 把 这 些 元 素 分 为 P,Q,R 3 类 ,如 下 :如 果 |So|<4q, 令 P=S,Q= 
To,R= 个 \ To。 否 则 ,对 于 每 个 y€ To, 令 C(y) 是 已 经 同 y 做 过 比较 的 S 的 元 素 , 并 
选择 y 使 得 | C(yo) | 是 极 小 。 令 P=(S\ So)UC(y0),Q= (So \C(yo))U {yo1,R 
=TAiyol。 通 过 指出 PP 的 元 素 小 于 Q 的 元 素 , 和 Q 的 元 素 小 于 尺 的 元 素 , 来 判定 所 
有 未 来 的 比较 ; 当 x 和 yy 为 同一 类 时 , 据 一 次 硬币 。 

证 明 ,如 果 1 三 r 过 t 和 在 步骤 A3 开始 时 | C(yo) | 三 g -7, 则 每 个 叶 被 达到 的 概率 三 (n+1 


- 92 (7 )。 提示 :证 明 至 少 投 据 了 -4 次 硬币 。 
(c) 继 续 (b) , 试 证 对 于 所 有 整数 g 和 ,我 们 有 
VC > min(n -1+(r-1l)(g+1—-r),n -arie((® )/ +1- 1)) 
(qd) 通过 选择 g 和 7 来 建立 (14)。 


“5s.3.4 排序 网 络 


在 本 小 节 中 ,我 们 将 研究 一 种 受 限 制 类 型 的 排序 ,由 于 它 的 应 用 和 丰富 的 理论 
基础 使 它 特别 有 趣 。 新 的 限制 是 坚持 齐 性 的 比较 序列 。 齐 性 的 定义 是 :每 次 比较 
Ki; 和 KK; 后 ,随后 的 比较 对 于 K;< K; 和 K; > K; 是 完全 一 样 的 , 仅 将 ;和 7) 互 换 即 
可 。 

图 43(a) 示 出 了 一 株 满足 这 个 齐 性 条 件 的 比较 树 。 注 意 ,每 层 都 有 同样 多 次 的 
比较 。 所 以 在 进行 了 m 次 比较 后 ,有 2” 个 结果 。 由 于 n! 不 是 2 的 帘 , 所 以 某 些 
比较 必然 是 多 余 的 。 换 名 话说 ,这 个 树 的 某 些 分 文 必须 做 多 于 实际 需要 的 比较 , 才 
能 确保 这 株 树 所 有 对 应 的 分 支 都 恰当 地 排 好 序 。 这 里 “多 余 ”的 意思 是 ,它们 的 子 树 
之 一 实际 上 是 不 可 能 出 现 的 。 

由 于 这 样 一 株 树 被 从 顶部 到 下 部 的 每 条 路 径 惟一 地 确定 ,所 以 这 样 一 个 排序 方 
案 最 容易 表示 成 一 个 网 络 ;参见 图 43(b)。 在 这 样 一 个 网 络 中 , 方 框 表示 “比较 模 
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块 ", 它 有 两 个 输入 (表示 成 从 上 边 进入 到 这 个 模块 的 直线 ) 和 两 个 输出 (表示 引 向 下 
边 的 直线 ) ;左边 的 输出 是 两 个 输入 中 的 较 小 者 ,而 右边 的 输出 是 较 大 者 。 在 这 个 网 
络 的 下 部 , K1 是 {Ki,K,,K;, Ka| 的 最 小 者 ,K 是 第 二 个 最 小 者 ,等 等 。 不 难 证 
明 ,任何 排序 网 络 都 对 应 于 在 上 述 意义 下 的 齐 性 的 比较 ,而 任何 齐 性 树 都 对 应 于 比 
较 模 块 的 一 个 网 络 。 

附带 说 一 句 ,我 们 要 指出 ,从 工程 的 观点 来 看 ， 例 
如 ,假设 直线 包含 二 进 制 数 ,其 中 每 一 个 单位 时 间 有 一 个 二 进位 数 进 入 每 个 模块 ,最 
先进 入 的 是 最 高 位 。 每 个 比较 模块 都 有 3 个 状态 ， 并 按 如 下 方式 进行 ， 


时 间 : 时 间 (x + 1) 
状态 输入 状态 输出 
0 0 0 0 0 0 
0 1 1 0 1 
0 1 0 2 0 1 
0 1 1 0 1 1 
l I y 1 xX y 
2 2 立 


rx y y 
开始 时 ,所 有 的 模块 都 在 状态 0 并且 输出 00。 一 个 模块 只 要 它 的 输入 不 同 就 进入 
状态 1 或 状态 2。 如 果 在 直线 K1 和 天 4 上 附加 一 个 适当 的 延迟 元 件 , 则 在 时 间 : 
时 在 图 43(b) 项 上 开始 送 来 的 数 ,将 被 排 好 次 序 ,并 从 t+3 时 开始 由 底下 输出 。 

为 了 建立 排序 网 络 的 理论 ,不 妨 以 一 种 如 图 44 中 所 示 的 稍微 不 同 的 方式 来 表 
示 它 们 。 这 里 , 数 从 左边 进入 ,并 用 两 条 直线 间 的 垂直 连接 表示 比较 模块 ;每 个 比较 
块 必要 时 交换 其 输入 量 ,使 得 在 通过 这 个 比较 块 之 后 较 大 的 数 出 现在 下 边 的 线 上 。 
在 这 个 图 形 的 右边 ,所 有 的 数 都 是 从 上 到 下 有 序 的 。 


“TT 1 一 一 一] 1 一 一 1 -1 一 K] 
下 2 一 1 二 一 十 十 TT 
”| | ,x 
wa 3 一 一 3 4 一 -一 4 一 开 4 


图 44 当 对 4 个 数 的 序列 \4,1,3,27 排 序 时 表示 图 43 的 网 络 的 另 一 种 方式 


我 们 以 前 关于 最 优 排序 的 研究 ,集中 在 使 比较 次 数 极 小 化 上 ,而 很 少 或 者 根本 
不 注意 它 引 起 的 任何 数据 移动 或 可 能 需要 的 判定 结构 的 复杂 性 。 在 这 方面 ,排序 网 
络 有 明显 的 优点 ,因为 数据 可 以 保留 在 个 地 点 ,而 且 判 定 结构 是 "直线" 式 的 ;不 第 
要 记 住 以 前 比较 的 结果 一 一 因为 方案 是 预先 就 固定 好 的 。 排 序 网 络 的 男 一 个 重要 
优点 是 ,有 可 能 重合 若干 个 操作 ,同时 地 执行 它们 (在 一 台 适 当 的 机 器 上 )。 例 如 , 当 
允许 同时 的 非 重 登 的 比较 时 ,图 43 和 图 44 中 的 5 步 可 以 全 合成 3 步 , 因 为 前 2 步 
和 第 二 个 2 步 可 以 组 合 在 一 起 ;在 本 小 节 稍 后 将 剖析 排序 网 络 的 这 个 性 质 。 因 此 ， 
排序 网 络 可 能 是 非常 有 用 的 ,尽管 还 不 完全 清楚 对 很 大 的 n ,能 否 构 造 有 效 的 个 
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元 素 的 排序 网 络 ;我 们 将 会 发 现 ,为 了 保持 齐 性 的 判定 结构 ,需要 许多 附加 的 比较 。 
当 给 定 一 个 n 元 素 的 网 络 时 ,存在 两 种 简单 的 方法 来 构造 一 个 mn + 1 个 元 素 的 
排序 网 络 ,或 用 插入 原理 ,或 用 选择 原理 。 图 4$(a) 说 明 在 头 ”个 元 素 已 经 排序 之 
后 ,如何 把 第 ”+ 1 个 元 素 揪 入 到 它 应 有 位 置 中 去 ;而 这 个 图 的 (b) 部 分 说 明 在 对 剩 
下 的 一 些 元 素 排 序 之 前 ,如 何 来 选择 最 大 的 元 素 。 重 复 应 用 图 45(a) ,就 得 到 了 类 侯 
于 直接 插入 排序 的 网 络 ( 算 法 5.2.1S) ,而 重复 应 用 图 45(b), 就 产生 了 类 似 于 冒 泡 
排序 的 网 络 ( 算 法 5.2.2B)。 图 46 给 出 了 相应 的 6 元素 的 网 络 。 注 意 , 当 人 允许 同时 
操作 时 ,两 个 方法 都 归结 为 同一 个 “三 角形 "的 有 2n -3 个 阶段 的 过 程 (图 47)。 





ZT1 / 





之 2 


Lr3 


图 45 从 排序 器 构造 (n+ 1) 排序 器 
(a) 插 入 ;(b) 选 择 。 


图 46 通过 重复 应 用 图 45 得 到 的 图 47 在 并 行 的 情况 下 
类 似 于 初等 内 部 排序 图 式 的 网 络 直接 插入 = 骨 泡 排序 ! 
(a) 直 接 插入 ;(b) 冒 泡 排序 。 
容易 证 明 : 图 43 和 图 44 的 网 络 将 把 4 个 数 的 任何 集合 排 成 为 有 序 的 ,因为 前 4 
个 比较 器 把 最 小 和 最 大 的 元 素 放 置 到 正确 的 位 置 ,最 后 的 比较 器 把 剩 下 的 2 个 元 素 
顺序 排序 。 但 是 要 知道 一 个 给 定 的 网 络 是 否 对 所 有 可 能 的 输入 序列 进行 排序 ,并 不 
总 是 那样 容易 的 ;例如 : 


SEE + HE 


都 是 正确 的 4 个 元 素 的 排序 网 络 , 但 是 它们 正确 性 的 证 明 却 非 显 然 。 试 验 ”个 不 同 
元 素 的 所 有 n! 个 排列 的 每 个 ”元 素 网 络 ,这 肯定 是 充分 的 。 但 是 事实 上 ,我 们 可 
”1 
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以 通过 少 得 多 的 试验 获得 之 : 

定理 Z(0-1 原理 ) 如 果 具 有 nn 个 输 人 线 的 一 个 网 络 ,把 0 和 1 的 所 有 2" 个 序 
列 排 成 为 非 减 次 序 , 则 它 将 把 n 个 数 的 企 意 序列 天 成 为 非 减 的 次 序 。 

证 明 ( 这 是 Bouricius 定理 的 特殊 情况 ,习题 5.3.1-12) 如 果 f(x) 是 任何 单调 函 
数 , 且 每 当 xz 二 y 时 ,f(xz) 三 f(y), 而 且 如 果 一 个 给 定 的 网 络 把 (zj,… ,zx, ) 变 换 成 
《y1，… ,yx), 则 容易 看 出 这 个 网 络 将 把 (f(zi),…, f(x, )) 变 换 成 (f(yi),…， 
f(y ))。 如 果 对 某 个 i,y;> yi41, 则 考察 单调 函数 f, 它 把 所 有 < y 的 数 变 成 0, 以 
久 把 所 有 之 yw 的 数 变 成 1; 这 定义 了 诸 0 和 1 的 一 个 序列 (f(x),…, f(x,)), 它 不 
被 这 个 网 络 所 排序 。 因 此 ,如 果 所 有 的 0-1 序列 被 排序 , 则 对 于 1 过 i<n ,我 们 有 y 
入 Warin | 


在 构造 排序 网 络 中 ,0-1 原理 是 十 分 有 帮助 的 。 作 为 一 个 非 平凡 的 例子 ,我们 可 
以 推导 Batcher 的 “合并 交换 ”( 算 法 5.2.2M) 的 一 种 推广 形式 。 其 思想 是 通过 独立 
地 对 前 m 个 元 素 和 最 后 ”个 元 素 排 序 来 实现 对 全 部 + 个 元 素 的 排序 ,然后 对 
结果 应 用 (m,n ) 合 并 网 络 。 一 个 (m,n) 合 并 网 络 可 以 归纳 地 构造 如 下 : 
a) 如 果 m=0 或 n=0, 则 这 个 网 络 是 空 的 。 如 果 mx. = n=1, 则 这 个 网 络 是 单个 
比较 模块 。 
b) 如 果 mn >>1, 令 有 待 合 并 的 诸 序 列 为 (zi1,…,z) 和 (y1,…y,)。 合 并 “ 奇 序 
列 “〈zi, za T2121-1) 和 和 《yi,y3,… yz21n121-1) ,得 到 排 好 序 的 结果 《wv ,wv,，…， 
vrml21+[x121) ;合并 “ 侦 序 列 ”《xzy,z4，… zzlm12]) 和 《ys,y4，"…,y2ln121) ,得 到 排 好 序 
的 结果 《wi ,ws，,… ,wi mj21+|n121)。 最 后 ,应 用 比较 交换 操作 
WI 2，T2 V3 W337 V4 Whim/l2ttnl2] + v0 (1) 
到 序列 
《uly WI V2 WI V3 WI » ULm/2+ a2d > Wh mf2d+tia/2j VU ,也 (2) 
上 ,这 个 结果 将 是 排 好 序 的 。 注 意 , 这 里 如 果 mm 和 nn 都 是 偶数 , 则 v* = 
vjmj2j+[n12j+1 个 存在 ,另外 ,除非 m 和 nn 都 是 奇数 ,否则 v “= vmj2j+Ln/2J+2 也 不 
存在 。(1) 指 出 的 比较 模块 的 总 数 为 L (m+ n 一 1)/2j。 
Batcher 的 (m,n) 合并 网 络 称 为 奇偶 合并 。 按 照 这 些 原理 构造 的 一 个 (4,7) 合 
并 如 图 48 所 示 。 
为 了 证 明 这 个 相当 奇特 的 合并 过 程 实际 上 是 行 得 通 的 , 当 mn >1 时 ,我 们 使 用 
0-1 原理 ,对 所 有 的 0 和 1 的 序列 来 测试 它 。 在 初始 的 mx 排序 和 7 排序 后 ,对 某 个 
& 和 14, 序列 (zx1，,… ,x ) 将 由 有 个 0 后 边 接 上 m-& 个 1 组 成 ,而 序列 (yi，…，,y,》 
将 是 1 个 0 后 边 接 上 nn 一 /个 1。 因 此 序列 (wi,v,,…) 将 恰 由 Tk/21+『7/21 个 0, 后 
边 接 一 些 1 组 成 ;而 《wl,w2,，,…,) 将 由 Lk/2」+L2/2j 个 0, 后 边 接 一 些 1 组 成 。 现 在 
这 里 的 要 点 是 
([ /21+ T2121) 一 (Lg/2」 +L2) = 0,1 或 2 (3) 
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图 48 当 m=4 和 n=7 时 的 奇偶 合并 


如 果 这 个 差 是 0 或 1, 则 序列 (2) 已 经 有 序 了 ,如 果 这 个 差 是 2, 则 (1) 中 的 比较 交换 
之 一 就 把 问题 全 都 解决 了 。 这 就 完成 了 证 明 ( 注 意 ,0-1 原理 把 合并 问题 从 
[”” ”种 情况 的 考虑 归结 为 仅仅 (m+ 1) (n+ 1) 种 ,它们 由 两 个 参数 和/ 表 
未 )。 

设 C(m,n) 是 对 于 mr 入 在 奇偶 合并 中 使 用 的 比较 模块 个 数 ,不 计 初 始 的 7 
排序 和 排序 ,我 们 有 

C(m,n) = 
mn 如 果 mn 委 1 
Cfm/21,T na/21) + COL m/f24,Lnf21) +L(m+n 一 1)/2」 如 果 mn > 1 
一 般 说 来 ,这 不 是 mx 和 ?7 的 特别 简单 的 图 数 ,但 是 注意 C(1,n)=n 和 
Cl(m+tlnt+1)- Cm,n)=1+C(m/2 +1i,Ln/2]+1)-— 
C(|Lm/2j,Ln/2j) 如 条 aa 之 1 





(4) 


可 以 导出 关系 
Cl(m+t+1l,nt+1)- C(m,n) =Llgz +2+Lz/28r | 如 果 n 宇 m 宇 1 
(5) 
因此 
Cl(mm+r)= B(m)+m+ R,(r) 对 于 mn 宇 0，r 宇 0 (6) 
其 中 B(m ) 是 等 式 5.3.1-(3) 的 “二 叉 插入 ”函数 3Y_ lg & 1, 而 其 中 R,,(7) 表 示 下 
列 级 数 的 前 mx 项 之 和 





ai 
特别 是 , 当 r=0 时 ,我 们 有 重要 的 特殊 情况 
Cl(m,m) = B(m)+m (8) 


进而 ,如 果 z=[lgm |, 则 
R,(r 十 27) = R,(r) +1.2 1+2.2 ?7+.… +21.20+m 
=R,(r)+m+t. 2 
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因此 C(m ,n+2) 一 C(m,n) 有 一 个 简单 的 形式 ,并 有 旦 

Cl(m,n) = 去 + 到 jn+ O01) 对 固定 的 m,n 一 ,tt = |lgz | (9) 
O(1) 项 是 ”的 一 个 最 终 周 期 图 数 , 其 周期 长 度 为 2。 由 等 式 (8) 和 习题 5.3.1-15， 
当 ww>o00 时 ,C(n,n)= nlgn+ O(n),。 


极 小 比较 网 络 令 $S(n) 为 n 个 元 素 的 排序 网 络 中 所 需要 的 比较 器 的 极 小 个 
数 ; 显 然 5(n) 宇 S(n), 其 中 S(n) 为 一 个 不 需 齐 性 的 排序 过 程 中 所 需要 的 极 小 比 
较 次 数 (参见 5.3.1 小 节 )。 我 们 有 S$S(4)=5= S(4), 所 以 当 n=4 时 ,新 的 限制 并 
不 引起 效率 的 损失 ;但 当 n=5 时 ,结果 已 经 是 $(5)=9 而 S(5)=7。 确定 Sl(n) 的 
问题 似乎 比 确定 S(n ) 的 问题 更 为 困难 ;其 至 连 SS(2) 的 渐 近 特性 也 还 不 知道 。 

回顾 这 个 问题 的 历史 是 有 趣 的 ,因为 这 里 迈 出 的 每 一 步 都 是 很 艰难 的 。 大 约 在 
1954 年 ,;P.N.Armstrong,R.].Nelson 以 及 D.J.O’Connor 首先 训 析 了 排序 网 络 [ 见 
U.S. Patent 3029413]; 用 其 专利 律师 的 话说 ， 通 过 使 用 这 个 技巧 ,有 可 能 使 用 较 小 
的 双 线 排序 开关 来 设计 经 济 的 n 线 排序 开关 ”。 在 发 现 S(n+1) 三 S(n)+n 之 
后 ,他们 给 出 了 对 于 4 夺 n 志 8 的 特殊 构造 ,分 别 使 用 了 5,9,12,18 和 19 个 比较 囊 。 
随后 ,Nelson 同 R.C. Bose 合作 ,证 明了 对 于 所 有 的 ”SS(2") 委 3" -2”; 因 此 $(n) 
二 O(n 外 )= O(n!1553)。Bose 和 Nelson 在 JACM 9(1962) ,282 一 296 上 发 表 了 他 们 
有 趣 的 方法 ,文中 他 们 推测 它 是 最 好 的 。T.N. Hibbardl JACM 10(1963 ) ,142 一 
150] 发 现 了 一 个 类 似 但 稍 简单 些 的 构造 , 它 使 用 相同 的 比较 数 ,由 此 更 增强 了 这 个 
推测 。 

1964 年 ,R.W.Floyd 和 D.E.Knuth 发 现 了 解决 这 个 问题 的 新 方法 ,导致 了 形 
如 S(z)=O(z5esv im) 的 一 个 渐 近 限 值 。K.E. Batcher 独立 地 发 现 了 上 边 概述 的 
一 般 的 合并 技巧 ;使 用 了 由 递 推 式 

c(1) = 0,c(n) = cl([n/2|)+ ec(l nf2))+ Cli nf21,L nf/21) nn 二 2 (10) 
对 于 定义 的 比较 器 个 数 , 他 证 明 ( 见 习题 5.2.2-14) 
c(2:) = (1* -t+4)2: -1 
而 且 由 此 得 出 S$(n)= O(n (log n )”)o Batcher, Floyd 及 Knuth 都 过 了 一 段 时 间 才 
发 表 他 们 的 构造 [Notices of the Amer. Math. Soc. 14(1967 ) ,283 ;Proc. AFIPS Spring 
Joint Computer Conf. 32(1968),307~314|1。 

一 些 人 已 经 找 出 方法 来 改进 Batcher 的 合并 交换 的 构造 所 用 的 比较 次 数 ; 下 表 

说 明 当 前 已 知 的 5(n) 的 最 好 上 限 : 


n=1 2 3456 7 8 9 1011 12 1314 1S 16 
c(n)=0 1 359 12 16 19 26 31 37 41 48 53 59 63 (11) 
S(n)<0 1 359 12 16 19 25 29 35 39 45 51 56 60 


由 于 对 8 过 nn 三 16,S(n)<c(n), 故 对 所 有 n>>8, 合 并 交换 是 非 最 优 的 。 当 nn 三 8 
时 ,合并 交换 使 用 的 比较 器 个 数 与 Bose 和 Nelson 的 构造 相同 。Floyd 和 Knuth 于 
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1964 一 1966 年 证 明了 当 2” 委 8 时 ,S$S(n) 的 上 列 值 是 精确 的 [ 见 A Survey of Combina- 
torial Theory North-Holland ,1973),163 一 172j]; 当 n>>8 时 ,S$S(n) 的 值 仍然 是 未 知 
的 。 

图 49 所 示 为 导致 (11) 中 的 值 的 构造 。 以 有 趣 的 三 路 合并 为 基础 的 n=9 的 网 
络 , 是 1964 年 由 R.W.Floyd 建立 的 ; 它 的 正确 性 可 以 通过 使 用 习题 27 中 描述 的 一 
般 原 理 来 证 明 。1969 年 ,A.Waksman 把 输入 当 作 {11,2,…,10| 的 排列 ,并 试图 尽 可 
能 地 减少 在 每 个 阶段 中 ,每 一 直线 上 出 现 的 可 能 的 数值 的 数目 ,同时 保留 某 种 对 称 
性 ,由 此 发 现 了 n=10 的 网 络 。 





n 二 12 39 个 模块 ,延迟 9 





1 =16 ”60 个 模块 ,延迟 10 


图 49 有效 的 排序 网 络 


对 于 n= 13 所 示 的 网 络 有 十 分 不 同 的 家 谱 : Hughes Juillé| Lecture Notes in 
Comp. Sci. 929 (1995),246 一 260] 使 用 一 个 计算 机 程序 ,通过 模拟 基因 的 进化 过 程 
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来 构造 它 。 这 个 网 络 没 有 明显 的 意义 ,但 它 奏效 一 一 而 有 旦 它 比 迄今 根据 人 们 的 推理 
所 设计 的 任何 其 他 构造 都 更 短 些 。 

1969 年 ,G.Shapiro 发 现 了 对 于 16 个 元 素 的 62 个 比较 器 的 排序 网 络 ,这 是 相当 
令 人 惊讶 的 。 因 为 当 n 是 2 的 乘 方 时 ,Batcher 的 方法 (63 个 比较 ) 看 起 来 是 最 好 
的 。 在 听 说 Shapiro 的 构造 后 不 久 ,M.V.Green 由 于 找 出 图 49 中 包含 60 个 比较 的 
排序 器 ,而 使 人 们 更 为 惊讶 。Green 构造 的 前 一 部 分 是 容易 理解 的 ;在 对 虚线 左边 进 
行 了 32 次 比较 /交换 之 后 ,这些 直线 可 以 以 ja,p,c,di 的 16 个 子 集 按 下 面 的 方式 
来 标号 :每 当 * 是 i 的 一 个 子 集 时 ,标号 为 * 的 直线 包含 一 个 数 ,这 个 数 小 于 或 等 于 
标号 为 上 的 直线 的 内 容 。 习 题 32 中 进一步 讨论 了 这 里 的 排序 状态 。 然 而 ,在 Green 
的 网 络 的 随后 层次 上 所 做 的 比较 变 得 越 来 越 神秘 ， 而 且 至 今 未 有 人 看 出 怎样 来 推广 
这 个 构造 ,以 便 相 应 地 得 到 对 于 n 的 更 高 值 的 有 效 网 络 。 

Shapiro 和 Green 也 发 现 了 n=12 的 网 络 。 当 ”=11,13,14 或 15 时 ,通过 把 ” 
+1 网 络 中 最 底下 的 线 和 触及 该 线 的 所 有 比较 器 一 起 撤销 ,就 可 以 建立 好 的 网 络 。 

由 D.Van Voorhis 给 出 的 对 于 256 个 元 素 的 当前 已 知 为 最 好 的 排序 网 络 ， 
Batcher 方 法 的 3839 相 比 ,其 证 明 S$(256) 达 3651[ 参 见 R.L. Drysdale 和 F.H. 
Young,SICOMP 4 (1975),264 一 270]。 当 ”co 时 ,事实 上 结果 为 S= O(n log n); 这 
个 令 人 吃惊 的 上 限 是 由 Ajtai, Komlos 和 Szemerédi 在 Combinatorica 3(1983) ,1 一 19 
中 证 明 的 。 他 们 所 构造 的 网 络 没有 实际 意义 ,因为 引进 许多 的 比较 器 只 不 过 是 为 了 
市 省 log n 的 一 个 因子 ,除非 n 超过 地 球 上 所 有 计算 机 的 总 的 内 存 容量 ,否则 
Batcher 的 方法 要 好 得 多 。 但 是 Ajtai, Komlos 和 Szemerédi 的 定理 确实 建立 了 一 直 
到 一 个 常数 因子 的 $C) 的 真正 渐 近 增长 比率 。 


极 小 时 间 网 络 ”在 排序 网 络 的 物理 实现 中 ,以 及 在 并 行 计算 机 上 ,有 可 能 同时 
进行 非 重 释 的 比较 交换 ;因此 自然 地 提出 了 延迟 时 间 极 小 化 的 问题 。 稍 做 考虑 就 可 
看 出 ,如 果 把 一 条 路 径 定 义 为 任何 自 左 到 右 的 路 线 , 这 个 路 线 可 能 在 比较 器 处 改换 
所 走 的 直线 , 则 一 个 排序 网 络 的 延迟 时 间 ,等 于 通过 网 络 与 任何 “路 径 ” 接 触 的 比较 
第 之 极 大 个 数 。 可 以 在 每 个 比较 器 上 放置 一 个 序列 编号 ,来 指出 它 可 以 被 执行 的 最 
早 时 刻 ; 这 个 编号 比 在 它 的 输入 线 上 较 早 出 现 的 比较 器 序列 编号 的 极 大 值 大 1( 见 
图 50(a); 此 图 的 (b) 部 分 示 出 重 画 的 同一 网 络 , 其 中 每 一 个 比较 完成 于 最 早 可 能 的 
时 刻 )。 


3 4 4 3 3 6 


a 


图 50 ”在 最 早 可 能 的 时 刻 进行 每 个 比较 
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上 面 所 描述 的 Batcher 奇偶 合并 网 络 花 费 Tp(m ,nm ) 个 时 间 单 位 ,其 中 Tp(m， 
0)= Ta(0,n)=0,Ts(1,1)=1,E§. 

Tp(m,n)=1+max(Ts(Lm/2j,Ln/21), Ta(l m/f21,| nf/21) 对 于 mn 过 2 
我 们 可 以 使 用 这 些 关系 ,通过 归纳 法 来 证 明 Ts(m,n++1) 宇 Tp(m,n); 因 此 对 于 
mn 宇 2, Tp(m,n)=1+ Tp([m/21,| n/21), 并 由 此 得 出 


Ta(m,n) = 1+|lg max(m,n)| 对 于 mn 宇 1 (12) 
由 此 ,习题 5 证 明 ,Batcher 排序 方法 的 延迟 时 间 为 
1+|lgn | 
国人 (13) 


令 个 (nn ) 是 在 ”个 元 素 的 任何 排序 网 络 中 ,可 达到 的 极 小 延迟 时 间 。 有 可 能 来 改进 
上 面 描述 的 某 些 网 络 ,使 得 它们 有 较 少 的 延迟 时 间 , 但 不 使 用 更 多 的 比较 器 ,如 图 51 中 
对 于 n=6,n=9 和 n=11 以 及 习题 7 对 于 n=10 所 示 的 那样 。 如 果 如 图 51 中 所 示 对 
于 n=10、12 和 16 的 值得 注意 的 网 络 那样 ,我 们 增加 一 个 或 两 个 额外 的 模块 , 则 还 可 以 
达到 更 小 的 延迟 时 间 。 这 些 构造 ,对 于 小 的 ”产生 了 了 人 (2) 的 下 列 上 限 

n=12345678910 1 1B 14 1 ,1 
T(n)<0 1 3 3 5 $5 6 6 7 7 8 8 9 9 9 9 

对 于 ” 委 10, 这 里 给 出 的 值 已 知 是 精确 的 (见习 题 4)。 图 51 中 的 网 络 值得 仔细 研 
究 ,因为 它们 的 排序 能 力 决 不 是 一 眼 能 看 出 来 的 ;有 些 是 在 1969 年 一 1971 年 间 由 
G. Shapiro( 对 于 n=6,12) 和 DD.Van Voorhis(n =10,16) 发 现 的 。 其 余 的 (n= 9,11) 
是 Loren Schwiebert 于 2001 年 使 用 遗传 方法 发 现 的 。 

合并 网 络 令 M(m,n) 表 示 在 一 个 网 络 中 所 需要 的 极 小 比较 模块 数 , 这 个 网 
络 把 mx 个 元 素 zl 二 … 世 x 同 n 个 元 素 yi 声 …<<y 加 以 合并 以 形成 有 序 序列 zi 二 
… 芝 z+no 现在 ,还 没有 发 现 比 上 面 描述 的 奇偶 合并 更 优越 的 合并 网 络 , 因 此 (6) 
中 的 函数 C(m ,nn ) 就 表示 对 于 M(m ,nn) 已 知 的 最 好 上 限 。 

R.W.Floyd 已 经 发 现 了 求 这 个 合并 问题 下 限 的 一 种 有 趣 方 法 。 

定理 对 于 记 有 nn 宇 1, M(2n,2n) 宇 2M(n,n)+n。 


证 明 考虑 具有 M(2n,2n) 个 比较 模块 的 网 络 , 它 有 能 力 对 所 有 的 输入 序列 
(zj ,… ,4, ) 排 序 , 使 得 zj 过 zs 过 … 志 zj, -1 和 zs 全 zs 夺 … 夺 zy。 可 以 假定 每 个 模 
块 都 对 某 个 i<j 以 (min(z;,z;),max(z;, zz)) 代 蔡 (z,,xz;)( 见 习题 16)。 因 此 请 比 
较 器 可 以 分 成 3 类 : 

a) ii 委 27 和 7 委 27 。 

b) i>2n 和 7 >27 。 

c) i2n 和 7 >>27 。 
类 a) 必 须 至 少 包 含 M(n,n) 个 比较 器 ,因为 Zz2n+19X2n+2，" ;之 4w 当 开始 合并 时 可 
能 已 经 处 于 它们 最 后 的 位 置 了 ;类 似 地 ,在 类 b) 中 至 少 有 M(n,n) 个 比较 器 ,进而 ， 
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n 二 10 31 模块 ， 延 迟 7 


九 一 12 40 模块 ， 延 迟 8 


n=16 6061 模块， 延迟 9 
图 51 当 并 行 地 执行 比较 时 ,非常 快 的 排序 网 络 
丛 入 序列 (0,1,0,1,…,0,1) 说 明 类 c) 至 少 包 含 nn 个 比较 器, 因为 n 个 0 必须 从 
| >， ;Zan 和 移 到 |zi，…,z | | 
重复 使 用 定理 下 可 证 明 M (2” ,2") 福 (m +2)2”; 因 此 M(n 1) 之 六 nlgn + 


O(n)。 由 定理 5.3.2M 可 知 , 没 有 网 络 限制 的 合并 ,只 需要 M(n,n)=2n 一 1 个 
比较 ;因此 我 们 已 经 证 明 , 通 过 网 络 进行 合并 本 质 上 比 通常 的 合并 更 困难 。 
奇偶 合并 表明 


Mm,n) 达 C(m,n) = 3(m +n) legmin(m,n)+ O(m+n) 


P.B. Miltersen,M. Paterson 和 J].TaruilJACM 43(1996) ,147 一 165] 通 过 确立 下 限 
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M(m,n) 宇 地 ((m tn)lg (m+1)-m/ lIn2) 对 于 lm 二 nn 
改进 了 定理 下 。 因 此 
M(m,n) = (m+n)lgmin (m,n) + O(m+n) 
A.C.Yao( 姚 期 智 ) 和 下 .下 . Yao( 姚 储 枫 )LJACM 23 (1976),566 一 571j] 已 经 证 
明 精确 的 公式 M(2,n)=C(2,n)=| 这 nj。 对 于 =n 过 5, 也 已 经 知道 MM(m,n) 
的 值 等 于 C(m ,nn); 参 见习 题 9。 


双 调 排序 ” 当 人 允许 进行 同时 的 比较 时 ,在 等 式 (12) 中 已 经 看 到 , 当 1m 声 n 
时 ,奇偶 合并 使 用 [lg (2 ) 1 个 延迟 时 间 单 位 。Batcher 已 经 想 出 了 用 于 合并 的 另 一 
类 型 的 网 络 , 称 做 双 调 排序 器 。 尽 管 它 要 求 更 多 的 比较 模块 ,但 它 把 延迟 时 间 降 低 
到 [lg (zz +72)] [参见 U.S. Patent 3428946(1969)]。 

我 们 说 p 个 数 的 一 个 序列 (zi ,… ,xz,) 是 双 调 的 ,如 果 对 于 某 个 有 ,1 三 k 志 pp ,zz 
宇 … 宇 纪 夺 … 三 z,( 请 对 照 通 第 的 “单调 "序列 的 定义 )。 一 个 p 阶 的 双 调 排序 器 是 
一 个 有 能 力 把 长 度 为 p 的 任何 双 调 序列 , 排 成 为 非 减 次 序 的 比较 网 络 。 把 zi 委 … 
rn 同 w 委 … 委 合并 的 问题 ,是 双 调 排序 问题 的 一 个 特殊 情况 ,因为 合并 可 以 
通过 对 序列 (zziy 应 用 一 个 和 +7 阶 的 双 调 排序 器 来 完成 。 

注意 , 寿 序 列 (zi,…, zs) 是 双 调 的 , 则 它 的 所 有 子 序列 也 都 是 双 调 的 ;Batcher 
发 现 了 奇偶 合并 网 络 之 后 不 久 他 就 发 现 了 :我们 可 以 以 任何 类 似 的 方式 构造 一 个 阶 
为 pb 的 双 调 排序 器 ,方法 是 首先 独立 地 对 双 调 子 序列 (zl, za,zs，… 和 (>z，，,z4， ze， 
…) 进 行 排序 ,然后 比较 和 变换 zj :zx,,z3: zs( 它 的 证 明 见 习题 10)。 如 果 C’(p) 是 
对 应 的 比较 模块 数 , 则 我 们 有 

C(p)= C(p/21) + C (Lp/21) +Lp/2」] 对 于 p 宇 2 (15) 

而 且 延 迟 时 间 显 然 是 | lgp |。 图 52 所 示 为 以 这 种 方式 刁 
构造 的 7 阶 双 调 排序 器 : 它 可 以 用 作 一 个 具有 3 个 延迟 2 
单位 的 (3,4) 或 (2,5) 合 并 网 络 ;对 于 和 =2 和 2=S 的 2 
奇偶 合并 ,比较 器 少 一 个 ,但 多 一 级 延迟 。 z6 

2' 阶 的 Batcher 双 调 排序 器 是 特别 有 趣 的 : 它 由 :1 和 
层 组 成 ,每 层 有 2 个 比较 器 。 如 果 我 们 把 输入 线 编 
号 为 zo; 1，"“Z2:-1; 则 当 且 仅 当 1 和 7 仅仅 在 它们 的 图 a 
二 进位 表示 的 第 7 个 最 高 位 上 不 同时 ,元 素 = 才 和 1 层 
上 的 = 进行 比较 。 这 个 简单 的 结构 导致 了 并 行 排 序 网 络 , 它 像 合 并 交换 ( 即 算法 
5.2.2M) 那 样 快 ,但 是 实现 要 容易 得 多 (见习 题 11 和 13)。 

不 存在 基于 同时 不 相交 的 比较 的 并 行 合 并 算法 ,能 够 在 少 于 [lg(m +7) 1 阶段 
中 进行 排序 ,无 论 它 是 齐 性 地 还 是 非 齐 性 地 工作 。 在 这 个 意义 下 , 双 调 合并 是 最 优 
的 (参见 习题 46) 。 在 习题 57 中 ,讨论 了 以 较 少 的 比较 ,但 稍微 更 复杂 的 控制 逻辑 ， 
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来 实现 这 个 最 优 时 间 的 另 一 个 方法 。 

当 1 二 mm 夺 n 时 ,一 个 (m,n) 合 并 网 络 的 Xi 
第 n 个 最 小 的 输出 依赖 于 2m +[m <<nj 个 
输入 (参见 习题 29)。 如 果 它 能 通过 有 ! 层 延 “” 
迟 的 比较 器 来 计算 , 则 它 至 多 涉及 2’ 个 输入 ; 入 
因此 2‘: 宇 2m+ [mn], 且 ll 之 [lg(2m+[m 
< nj]) |。Batcher 已 经 证 明 [Report GER- ”3 
14122( Akron, Ohio: Goodyear Aerospace Cor- 
poration,1968)] ,如果 在 这 个 网 络 中 允许 “多 “ 
重 的 局 形 展开 ”, 即 分 开 诸 直线 使 得 在 同一 时 
间 里 同一 个 数 可 以 输入 到 许多 模块 中 , 则 这 z6 
个 极 小 延迟 时 间 是 可 以 达到 的 。 例 如 图 53 所 Ys “7 
示 为 他 给 出 的 2 上 =6 时 ,能 在 仅仅 两 个 延迟 级 
中 把 1 个 项 目 同 ”个 其 它 项 目 合并 的 网 络 。 色 53 把 1 个 项 目 同 6 个 其 它 项 目 合并 ， 
当然 ,具有 多 个 扇形 展开 的 网 络 不 可 能 符合 用 多 重 扇形 展开 ,以便 达到 极 小 延迟 时 间 
我 们 的 约定 ,很 容易 看 出 :没有 多 重 扇 形 展开 的 任何 (1,”) 合 并 网 络 ,必须 有 lg(n++ 
1) 或 更 多 的 延迟 时 间 ( 见 习题 43 ) 。 


选择 网 络 也 可 以 使 用 网 络 来 解决 5.3.3 小 节 的 问题 。 令 U,(n ) 表 示 在 一 个 
网 络 中 所 需要 的 比较 器 的 极 小 个 数 , 这 些 比较 器 把 ”个 不 同 输入 中 的 上 个 最 大 者 送 
和 人 上 个 指定 的 输出 线 ; 人 允许 它们 在 这 些 输出 线 上 以 任何 次 序 出 现 。 令 V,(n ) 表 示 为 
了 把 ”个 不 同 输入 中 的 第 个 最 大 者 送 入 一 个 指定 的 输出 直线 ,所 需要 的 比较 器 极 
小 个 数 ; 令 多 ,(2) 表 示 把 ”个 不 同 输入 中 的 上 个 最 大 者 以 非 减 次 序 送 到 上 个 指定 的 
输出 线 , 所 需要 的 比较 髓 极 小 个 数 。 不 难看 出 (参见 习题 17) 
U(n) Vi(n) < W,(n) (16) 
首先 假设 有 2 个 元 素 (x1,… ,x2,) ,我 们 希望 选择 最 大 的 1 个 ;V.E. Alekseev 
[Kibernetika $,3(1969) ,99 一 103]。 已 经 注意 到 ,要 做 到 这 一 点 我 们 可 以 先 对 (zi， 
… ,XT1) 和 (xz,4+1… ,zx21) 排 序 , 然 后 比较 和 交换 
TI Ts Ty To XY, Xr1 (17) 
由 于 这 些 对 中 没有 一 对 能 包含 一 个 以 上 的 最 大 的 i 个 元 之 之 一 (为 什么 )? Alekseev 
过 程 必定 能 选择 最 大 的 i 个 元 素 。 
如 果 要 选择 ni 个 元 索 中 的 i 个 最 大 者 , 则 可 应 用 这 个 过 程 n 一 1 次 ,每 次 消去 1 
个 元 素 ;因此 


1 
22 


23 


Za 


Z5 


Pn 


U,(ni) 过 (n—-1)(2S(1)+ 2) (18) 
Alekseev 也 对 这 个 选择 问题 推导 出 一 个 有 趣 的 下 限 。 
定理 A U,(n) 之 (n -zt)| lg(t +1)1 
证 明 考虑 选择 最 小 的 :i 个 元 素 这 样 一 个 等 价 的 问题 是 最 方便 的 。 可 以 把 数 
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(7 2) 附加 到 一 个 比较 器 网 络 的 每 条 直线 上 ,如 图 54 所 示 , 其 中 / 和 w 分 别 表 示 当 
(1,8) (1,7) (1,5) (1,5) (1,4) 
(1,8) (2,8) (2,7) (2,6) (2,4) 
(1,8) (1,7) | (2,7) em | (2,4) 


(9) Ge) (418) 1 


(1,8) 2 (1,7) (1,5) (1,5) (5,8) 
(1,8) | (2,8) (2,7) (2,6) (5,7) 
(1,8) _ (7 | en | en | (5,7) 
(1,8) | (2,8) (4,8) (4,8) (5,8) 


图 54 ”分 开 最 小 的 4 个 与 最 大 的 4 个 (在 这 
些 直 线 上 的 数 用 于 定理 A 的 证 明 ) 

输入 是 生 ,2,… ,nn| 的 一 个 排列 时 在 该 位 置 可 以 出 现 的 极 小 值 和 极 大 值 。 令 i; 和 
是 进行 比较 zx;:z; 之 前 在 直线 i 和 ; 上 的 下 限 , 并 令 li 和 沁 是 进行 比较 之 后 对 应 的 
下 限 。 显 然 ,Lf = min(2 0 ) ,习题 24 证 明了 这 个 并 非 显 而 易 见 的 关系 

ltl (19) 
现在 让 我 们 重新 以 另 一 种 方式 解释 网 络 的 操作 ( 见 图 55): 假 定 所 有 的 输入 线 都 含 
有 零 ,而 且 每 个 “比较 器 ”把 它 的 输入 中 的 较 小 者 置 于 上 边 的 直线 ,并 把 较 大 者 加 1 


局 OO OO QQ OO OO 


- | - 
OO 
Le ©O [Se 
[1 | | | | 
| “| | 
| 4 
ww [do Cw Co [ew ?一 二 


图 S$ 对 于 图 54 网 络 的 另 一 种 解释 
置 于 下 边 的 直线 。 得 到 的 数 (mi ,my, ,在 整个 网 络 中 均 有 性 质 


2 ， 之 1 (20) 
因为 这 在 开始 时 成 立 ,而 且 由 于 (19) ,通过 每 个 比较 器 后 它 还 继续 成 立 。 进 而 
m+ m2 t+ mm 


的 最 后 值 是 在 这 个 网 络 中 比较 器 的 总 数 , 因 为 每 个 比较 器 都 对 这 个 和 加 1。 
如 果 这 个 网 络 选 择 最 小 的 t 个 数 , 则 诸 1; 中 有 nn 一 :个 之 :+1; 因 此 诸 m; 中 有 
n 一 zt 个 必定 宇 [lg(1+1)|。 | 
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当 上 =1 和 z=2 时 定理 A 的 下 限 证 明 是 精确 的 (见习 题 19)。 表 1 给 出 了 对 于 
小 的 :和 nn,U,(n),V,(n) 和 W,(n) 的 某 些 值 。Andrew Yao( 姚 期 乔 )L| Ph.D. the- 
sis,U. of Illinois(1975) ] 通 过 证 明 当 2” 一 co 时 U3(n)=2n+lgnt+ O(1) 和 U,(n) 
=zaflg(t+l)1+O((logn)te) ,确定 了 对 于 固定 的 1,U,(n) 的 渐 近 特性 : 极 小 延 
迟 时 间 为 lgn +|lgi jlglgn + O(log log logn)。N.Pippenger [LSICOMP 20 (1991), 
878 一 887] 通 过 非 构造 性 的 方法 已 经 证 明 ,对 于 任何 “>0, 每 当 ”充分 大 (依赖 于 e) 
时 ,存在 满足 Da ) 委 (2+e)m lg n 的 选择 网 络 。 

表 1 在 选择 网 络 中 所 需要 的 比较 (U,(n),V(n),W,(n)) 





(3 (0,335) 
(6,7,8) (4,7,9) (0,4,9) 


(8,10,10) (8,10,12) (5,9,12) (0,5,12) 








习 下 





下 列 习 题 中 的 若干 题 深入 探讨 了 排序 网 络 理 论 , 此 处 引入 某 些 符号 是 方便 的 。 我 们 令 [i:j] 
代表 一 个 比较 /交换 模块 。 具 有 nn 个 输入 和 > 个 比较 模块 的 一 个 网 络 写 做 [i : 间 和 i :jp 
[i,:j,] ,其 中 每 个 i 和; 都 之 n ;为 了 简便 起 见 , 我 们 称 它 为 三 网 络 。 一 个 网 络 称 做 标准 的 ,如 采 
对 于 1 过 gq 志 7 ,is<j,。 例 如 ,图 44 描绘 了 一 个 标准 的 4- 网 络 ,以 比较 器 序列 [1:2][3:4][1:3] 
[E23423] 表 不 这 6 

正文 中 对 于 画 网 络 图 形 的 约定 仅仅 用 于 表示 标准 的 网 络 ; 所 有 比较 器 [i:j] 都 以 从 i 到] 的 
一 条 直线 表示 ,其 中 ;<j;j。 当 需 画 出 非 标 准 网 络 时 ,可 以 使 用 从 i 到 j 的 一 个 箭头 ,表示 较 大 的 数 
去 到 箭头 的 端点 。 例 如 ,图 56 所 示 为 对 于 16 个 元 素 的 非 标准 网 络 , 它 的 比较 符 是 [1:21[4:3] 
[5:6][8:7] 和 等。 习题 11 证 明 图 56 是 一 个 排序 网 络 。 

如 果 xz = 《zi,…, Xx,) 是 一 个 nn 向量 ,a 是 一 个 > 网 络 , 则 由 这 个 网 络 产 生 的 数 同 量 
((za)1，,… (xa),), 写 做 xa。 为 了 简洁 , 令 aVb=max(a,b),a Ab=min(a,b),a=1-a。 于 
是 当 #% 关 7 时 (2 [2 N= Vi 以 及 (2L2:])E= ya 如 果 对 于 所 有 
的 xz 和 对 于 1 过 i 过 nn,(zxa); 二 (za);41 时 ,我 们 说 a 是 一 个 排序 网 络 。 

符号 e' 站 代表 在 位 置 i 处 为 1, 其 它 处 为 0 的 一 个 向 量 ; 于 是 (e'?), = 6;。 符 号 D, 代表 所 有 
由 0 和 1 组 成 的 2* 个 n 维 向 量 的 集合 ,而 P, 代表 由 11,2,… ,| 的 诸 排 列 构 成 的 所 有 nn! 个 回 量 
的 集合 。 向 量 (z AZ Ay 和 (ziVy ;XV yx) 写成 zAy 和 xzVy, 而 且 如 果 对 于 所 
有 的 i ,zx; 声 y;, 则 写成 x 三 y。 于 是 x 三 y 当 且 仅 当 zVy=y 当 且 仅 当 x 人 y= xwzx。 如果 xz 和 yy 在 
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阶段 1 阶段 2 阶段 3 阶段 4 


一 人 一 一 


J 
YY 
2 
vy Tt A v1 vi 
| 人 
人 yy， 
民 
,4 
图 56 ”以 双 调 排序 为 基础 的 一 个 非 标准 排序 网 络 
D, 中 , 且 对 某 个 i ,z= (yVe') 关 y, 则 说 xz 徐 盖 y。 最 后 ,对 于 D, 中 所 有 Zz, 设 vy(z) 是 zz 中 1 
的 个 数 ,5(z) 是 0 的 个 数 ; 于 是 v(xz)+ (x)= no。 

1. [20] 当 m=3 和 n=5 时 , 试 画 出 一 个 奇偶 合并 的 网 络 图 形 。 

2. [22] 证 明 V. Pratt 的 排序 算法 (5.2.1- 30) 导 致 对 于 个 元 素 的 一 个 排序 网 络 , 它 有 近 
似 于 (logyn) (logsa7 ) 的 延迟 级 。 试 夯 出 对 于 n = 12 的 对 应 的 网 络 。 

3. [M20 ](K.E.Batcher) 试 求 C(m,m 一 1) 和 C(m,m) 之 间 的 一 个 简单 关系 。 

了 4. [M23] 证 明 全 (6)=5。 

5. [M16] 证 明 (13) 是 和 (10) 中 概述 的 排序 网 络 相 关联 的 延迟 时 间 。 

6. [28] 令 T(n) 是 通过 进行 同时 的 不 相交 的 比较 (不 需要 遵从 网 络 限 制 ) 排 序 所 需要 的 极 小 
阶段 数 。 每 组 这 样 的 比较 可 表示 为 包含 对 侦 集 合 站 和 广 , 记 :jz ,i 站 的 一 个 节点 ,其 中 ,， 
i2,j2，"… ,i ,jy 是 不 同 的 ,在 这 个 节点 之 下 有 27 个 分 支 ,它们 分 别 表示 下 列 情况 

Ki; < K, ,RK; < Kj; ,~ ,Ki < K; ) 
(K; > K,,K;, < RE < kK) 
试 证 明 T(5)= T(6) = 5。 

7. [25] 证 明 如 果 在 图 49n = 10 的 网 络 中 ,最 后 的 比较 器 恰 被 移 到 倒数 第 二 个 和 倒数 第 三 个 
比较 器 的 前 头 , 则 这 网 络 仍 能 完成 排序 。 

8. [M20 |] 证 明 对 于 mi ,yn yz2 志 0,M(mi+mal+72) 之 MOmini)TTRM(Omy， 72) 二 
min(m1,n2)o 

9. [M25 ](R.W.Floyd) 证 明 M(3,3)=6,M(4,4)=9,M(5,5)=13。 

10. [M22] 证 明 Batcher 的 双 调 排序 器 ,如 同 在 (15) 之 前 的 注释 中 所 定义 的 那样 ,是 有 效 的 
[提示 :只 须 证 明 , 所 有 的 由 个 1, 后 边 接 以 /个 0, 后 边 再 接 以 nn 一 一 /个 1 组 成 的 序列 都 能 被 
排序 ]。 

11. [M23 ] 证 明 阶 为 2' 的 Batcher 双 调 排序 器 ,将 不 仅 对 满足 Zz0 宇 之 纹 安 … 亿 zp:_ | 的 序 
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列 (zo,zi,…yz2 1) 排 序 ,也 将 对 满足 zo 三 … 三 zi 之 … 宇 zy:_1 的 任何 序列 排序 [推论 ,图 56 中 的 
网 络 将 对 16 个 元 素 排 序 , 这 是 因为 每 个 阶段 由 双 调 排序 器 或 逆序 的 双 调 排序 器 组 成 ,后 者 应 用 于 
已 经 以 相反 的 方向 排 好 序 的 序列 ]。 

12. [M20 |] 证 明 或 否定 :如 果 xz 和 yy 是 同样 长 度 的 双 调 序列 , 则 zVy 和 zzAy 人 也 是 。 

13. [24](H.S.Stone) 证 明 对 于 2 个 元 素 的 一 个 排序 网 络 ,可 以 仿照 图 57 中 对 于 :=4 所 
示 的 形式 加 以 构造 。 在 这 个 方案 中 ,z? 个 步骤 的 每 一 步 都 由 前 2 个 元 素 和 最 后 2: ! 个 元 素 的 
一 个 “完全 的 洗 牌 "组 成 ,接着 是 对 2 1 对 相 邻 元 素 执 行 的 同时 的 操作 。 这 些 操 作 每 一 个 或 是 “0” 
(无 操作 ) ,或 是 “+ "(一 个 标准 比较 模块 ) 或 是 “-"( 反 序 的 比较 模块 )。 这 个 排序 分 1 个 阶段 进 
行 ,每 阶段 又 分 上 步 ;在 最 后 阶段 ,所 有 的 操作 都 是 ”+ ”。 在 阶段 ;(s < :i), 我 们 做 其 中 所 有 操作 
都 是 “0" 的 上 -sxs 步 ,后 边 接 之 以 s 步 , 其 中 在 第 9 步 内 的 操作 交替 地 由 2? -个 “+ " 接 之 以 29” 1! 个 
“一 ”组 成 ,g =1,2,…,s。 

[注意 ,这 个 排序 方案 可 以 通过 相当 简单 的 设备 予以 实施 。 这 个 设备 的 线路 执行 一 个 “ 洗 牌 和 
操作 "步骤 ,以 及 把 输出 线 反 馈 到 输入 。 图 57 中 的 前 3 步 当 然 可 以 消去 ;保留 它们 仅仅 是 为 了 使 
这 个 形式 更 清楚 。Stone 指出 ,在 若干 其 它 算 法 中 也 出 现 有 相同 型 式 的 “ 洗 牌 操作 ” ,诸如 在 快速 傅 
里 叶 变 换 中 (参见 4.6.4-(40))]。 

P14. [M27] (V.F.Alekseev) 设 a=[i1:;j1]…[i:j,] 是 一 个 nn- 网 络 ; 对 于 1 声 ; 志 7, 我 们 定 
义 中 三 [站 [人 [其 中 区 和 庆 是 从 头 和 六 而 来 ,不 过 当 i 和 六 出 现 
时 (无 论 在 哪 ) ,把 i 改 为 ;, 和 把 j, 改 为 i,。 例 如 ,如 果 a=[1:21[3:4][1:31[2:4][2:3], 则 a*= 
[1:4][3:2][1:3][2:4][2:3]。 

a) 证 明 D,a = DD, (a:’)。 

b) 证 明 (a’)‘= (a!);s。 

c)a 的 一 个 共 恩 是 形 如 (…((a)2>)…)2 的 任何 网 络 , 试 证 明 a 至 多 有 2” ! 个 比较 。 

d) 设 g(xz)=[zxEDsaj] 以 及 f(z)=(zxiaV zn) 人 AA…A 人 (ziV x)。 试 证明 g(x)= Vi 六 
(Zz)la 是 a 的 一 个 共 恩 +。 

e) 设 G。 是 具有 项 点 1j1 zj 且 对 于 1 委 s* 委 ,具有 有 向 边 i 一 j, 的 有 向 图 。 试 证 明 a 是 一 

个 排序 网 络 , 当 且 仅 当 对 于 1 三 i<n 和 同 a 共 斩 的 所 有 vw“ ,G,. 有 从 i 到 i+1 的 一 条 有 向 通 
路 [这 个 条 件 是 稍微 突出 的 ,因为 G, 不 依赖 于 a 中 比较 器 的 阶 ]。 

15. [20] 试 求 4 个 元 素 的 一 个 非 标准 排序 网 络 , 它 只 有 5 个 比较 模块 。 

16. [AM22 ] 证 明 : 下 列 算法 把 任何 一 个 排序 网 络 [i: 放 ] [和 ] 都 变换 成 相同 长 度 的 一 
个 标准 的 排序 网 络 。 

Tl. 令 g 是 使 得 >j, 的 最 小 下 标 ,如 果 这 样 的 下 标 不 存在 ,就 停止 。 

T2. 对 于 g 三 ;二 7 ,在 所 有 比较 器 [i,:j,j] 中 把 i, 的 所 有 出 现 改 为 j,, 并 把 j, 的 所 有 出 现 改 为 
ioo 返回 TI。 | 


因此 ,网 络 [4:1][3:2][1:31[2:4][1:2j[3:4] 首 先 变换 成 [1:4][3:2][4:3][2:11[4:2][L3: 
1j ,然后 L1:4][2:3][4:2][3:1][4:3][2:1], 然 后 [1:4][2:3][2:41[3:1][2:3][4:1j 等 等 ,直到 得 
到 标准 网 络 [1:41L2:3][2:4][1:31[1:21[3:4] 为 止 。 


17. LM25 |] 令 D, 是 恰 有 :个 1 的 所 有 ( ”] 个 0 和 1 的 序列 (x ,… ,zx,) 的 集合 。 证 明 :U,(n) 


是 在 对 Do 的 所 有 元 素 排 序 的 一 个 网 络 中 所 需要 的 比较 器 的 极 小 个 数 ; V,(n) 是 为 排序 Du U 
Do -bx* 所 需要 的 比较 器 的 极 小 个 数 ; 而 W,(n) 是 为 对 Uo<i<sDin 排 序 所 需要 的 比较 器 的 极 小 个 数 。 
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> 18.[ M20] 证明 求 21 -1 个 元 素 的 中 值 的 一 个 网 络 至 少 需要 (上 一 1)Tlg(1+1)1+[Tlgz 1 个 比 

较 模 块 [ 提 示 : 见 定理 A 的 证 明 ]。 

19. [ M22 ] 证明: 对 所 有 nn 之 2,U,(n)=2n-4 和 V,(n)=2n -3。 

20. [24] 证明 V;(5)=7。 

21. [21 ] 真 或 假 :插入 一 个 新 的 标准 比较 器 到 任何 标准 排序 网 络 中 将 产生 另 一 个 标准 的 排 
序 网 络 。 

22. LM17|] 设 a 是 任何 nn- 网 络 , 并 设 x 和 vy 是 nn- 向 量 。 

a) 证 明 XYy 意味 着 ze 委 ya。 

b) 证 明 2 3y 委 (za)'(ya), 其 中 TY 表示 点 积 x] yl1 十 … 二 X,Yy,。 

23. [MI18j 设 x 是 一 个 nn- 网 络 , 证 明 有 一 个 排列 如 E P, 使 得 (pa);=j, 当 且 仅 当 在 D, 中 存 
在 问 量 z 和 y 使 得 x 被 盖 y,(za);=1,(ya);=0 和 ¢(y)=j。 

24. | M21 ] (了 B. 了 .Alekseev) 设 wx 是 一 个 n- 网 络 ,而 且 对 于 1k , 令 ,=min{(pa),|pE 
P, ,=maxi(pa)i|pE P| ,表示 可 出 现 于 输出 线 有 中 值 的 下 限 和 上 上限。 对 于 网 络 a = a[i: 
让 类 做 地 定义 i 和 wt。 证 明 

li = A Lt+t UsuUiu+tu- (nt+1l)u = uV uj 
[提示 :给 定 D, 中 的 向 量 z 和 y, 有 (za);= (ya);=0,5(x)=4;,t(y)=4, 求 出 DD, 中 的 一 个 
向 量 z ,使 (za’);=0,5(z) 坟 1;+ 416] 
25. [M30] 设 4 和 wi 如 习题 24 中 所 定义 的 那样 。 证 明 集 合 i(pa),|ip 在 P, 中 | 包括 六 和 
uk 之 间 以 及 lL 和 ws 本 身 的 所 有 整数 。 
26. 【M24 ](R.W.Floyd) 设 a 是 一 个 nn- 网 络 。 证 明 集 合 Dya = {zalz 在 D, 中 可 以 由 集合 
Pa 三 |palp 在 P, 中 | 确定 ;反之 ,Pa 可 由 Da 确定 。 

27. [M20 | 设 z 和 y 是 向 量 ,并 设 za 和 wa 被 排序 ,证 明 (za); 志 (ya),, 当 且 仅 当 每 从 y 中 任 
取 7 个 元 素 ,我 们 都 可 以 从 zc 中 选择 i 个 元 素 ,使 得 每 个 选 定 的 z 元 素 三 某 个 选 定 的 y 元 素 。 利 
用 这 一 原理 证 明 ,如 果 对 任何 和 矩阵 先 按 行 ,后 接 列 排序 , 则 请 行 仍 保 村 有 序 。 

>28. [ M20] 下 列 图 形 说 明 ,有 可 能 利用 输入 元 素 系统 地 写 出 在 一 个 排序 网 络 中 所 有 直线 上 
的 内 容 的 公式 : 





a a 人 入 b (a Ab)A(cAd) (a 和 Ab) 人 (cAdad) 
,| (aVvb)A(cVvad) ((avb)A(cVad))A((a 和 Ab)v (cAd)) 
c cAd (a 和 Ab)V (eAd) ((avb)A(ceVvad))v((a 和 b) Vv (cAd)) 
,| (a Vb)V (evd) (aVvb)Vv (evd) 





利用 交换 律 - 人 y=yA 人 zx,xzVy=yVx, 结 合 律 zA(yAz)=(xAy)Az,rzV(yVz)=(xVy) 
Vz, 分 配 律 xz 人 A(yVz)=(xzAy)V(zAz),xV(yAz)=(zVy)A(xVz) 吸 收 律 x 和 A(xVy) 
二 TV (xXA 人 y)=xz 以 及 等 究 律 x 人 x=xVzx=x, 可 以 把 这 个 网 络 右 端的 公式 分 别 简 化 为 (a Ab 
AcAd),(aAbAc)V(aAbAd)V (aAcAad)V(bAcAad),(aAb)V(aAc)V(aAad)V(le 
Ac)V(bAd)V(cAd),aVbVeVd,。 

证 明 ,一 般 地 ,| zx1,… ,zx,| 的 第 1 个 最 大 元 素 由 “初等 对 称 函 数 ” 


zi) 和 < 给 出 [有 (”) 项 被 V 在 一 起 。 
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于 是 求 极 小 花费 的 排序 网 络 的 问题 ,等 价 于 用 极 小 数量 的 “与 /或 "线路 计算 初等 对 称 函 数 的 问题 ， 
其 中 在 每 级 上 我 们 用 $y 和 #$Vy 代 兰 两 个 量 #$ 和 vy]。 

29. [| M20] 设 zi 委 z 委 z3 和 yj 区 寺 yj; 和 yy 过 ys ;又 设 zi 声 z; 声 … 声 zs 是 把 诸 “< 和 诸 y 
合并 的 结果 ,应 用 运算 符 人 和 V , 求 出 以 x 和 y 表达 的 每 一 个 z 的 公式 。 

30. [HM24 ] 证 明 : 使 用 习题 28 中 的 恒等式 ,可 把 任何 包含 信和 V ,以 及 独立 变量 | zx),… 
zs 的 公式 ,归结 为 一 个 “正则 ”的 形式 ri V rz… V ti, 其 中 之 1, 每 个 rm 形 为 人 {zx|j 在 S; 中 |， 
其 中 S; 是 |1,2,… ,nn| 的 一 个 子 集 ,而 且 当 i 关 j 时 ,集合 S; 不 包括 在 S; 中 。 证 明 两 个 这 样 的 正 
则 形式 对 于 所 有 的 x1,… ,zx, 都 相等 的 充 要 条 件 是 它们 恒 等 (准确 到 次 序 )。 

31. [ M24 ] (R.Dedekind,1897) 设 5, 是 在 习题 30 的 意义 下 关于 zi ,…,z, 的 不 同 正则 形式 
的 个 数 。 于 是 6, =1,6,=4 和 6;=18, 问 6 是 多 少 ? 

32. [M28」(M.W.Green) 设 G1= 100,01,11},G,， 1 是 所 有 串 9pyw 的 集合 ,使 得 9,9,y,w 
的 长 度 为 2"”” ' 且 仍 ,yw,0y 及 pu 在 G, 中 。 设 a 是 由 图 49 所 示 16 排序 器 的 前 四 级 组 成 的 网 络 。 
证 明 Diea = Gs4, 并 且 证 明 , 它 恰 有 64 + 2 个 元 素 (参见 习题 31)。 

了 P33. [M22] 习题 31 中 ,并非 (zl，…zv)》> 的 函数 的 所 有 5, 都 可 以 出 现 于 比较 器 网 络 中 。 证 
明 , 孙 数 (zi1 人 zx2)V (zsAx3)V (zx3 人 x4) 事 实 上 不 可 能 成 为 关于 《xz ,…, x,) 的 任何 比较 器 网 络 
的 输出 。 

34. [123] 下 图 是 否 是 一 个 排序 网 络 ? 


35. 【20] 证 明 对 于 1 和 ;< 2” ,任何 标准 排序 网 络 都 必须 至 少 包含 每 个 相 邻 的 比较 器 [ii + 
ITj 一 次 。 ~ 
36. [22] 图 47 的 网 络 仅 包含 相 邻 的 比较 [i:i+1]; 我 们 称 这 个 网 络 为 本 原 的 。 


a) 证 明 ”个 元 素 的 一 个 本 原 排序 网 络 至 少 有 世 ) 个 比较 器 [提示 :考虑 一 个 排列 的 送 ]。 


b)(R.W.Floyd,1964) 设 a 是 n 个 元 素 的 一 个 本 原 网 络 ,又 设 z 是 对 于 某 个 i<j 使 得 (za )， 
> (za), 的 一 个 向 量 。 证 明 (ya);> (ya),, 其 中 y 是 向 量 (n,n -1, ,1)。 

c) 作 为 b) 的 推论 ,一 个 本 原 网 络 是 一 个 排序 网 络 的 充 要 条 件 是 , 它 把 单个 向 量 (n,n 一 1,…， 
1) 排 序 。 

37. [| M22 ] 对 于 ”之 3 的 ”个 数 的 奇偶 转 置 排序 ,是 如 图 58 所 示 的 ,一 个 排 成 类 似 砖 块 式 


的 ,具有 二 mn(z- 1) 个 比较 器 的 ,深度 为 ” 层 的 网 络 ( 当 是 偶数 时 有 两 种 可 能 性 )。 这 种 排序 在 


硬件 中 是 特别 容易 实现 的 ,因为 仅仅 交 蔡 地 执行 两 类 操作 。 证 明 , 这 样 一 个 网 络 是 一 个 有 效 的 排 
序 网 络 [ 提 示 : 见 习题 36]。 


p38. [43] 设 N= (”) , 试 家 在 形 如 (% -1,n 一 2,… ,1) 的 杨 氏 表 图 和 本 原 排序 网 络 [ii :+ 
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NI 
个 这 样 的 网 络 ]。 提 示 :; 习 起 36(e) 表 下， 没有 多 余 比较 器 的 本 原 网 络 ， 对 应 于 5.1.1 小 节 中 类 似 
图 1 的 多 面体 中 从 1 2 … nn 到 n … 2 1 的 通路 。 


RE 才 疆 在 桩 


图 58 奇偶 转 置 排 序 

39. [25] 假设 已 知 ”条 线 上 的 本 原 比较 器 网 络 正 确 地 对 单个 输入 1010…10 进行 排序 (参见 
习题 36 ,假定 ”为 偶数 )。 证 明 它 的 “中 间 第 三 个 "( 由 线 [ 131 到 [22/13 1( 含 两 者 ) 的 所 有 比较 器 组 
成 ), 将 对 所 有 输入 进行 排序 。 

40. [HM44 ] 随机 地 选择 比较 器 [i +1[iz:i2+1]…[ij:i,+1j, 而 且 iE {1l,2,…,n 一 
11! 的 每 个 值 都 同等 可 能 ; 当 这 个 网 络 包含 类 似 图 47 的 一 个 冒 泡 排 序 格局 作为 一 个 子 网 络 时 ,这 个 
过 程 停止 。 试 证 明 ,除了 有 O(2 1000) 的 概率 之 外 ,r 委 422 +V nlgn。 

41. [M47] 随机 地 选择 比较 器 [jj[i2:j2]…[i,:j,j], 而 且 每 个 非 元 余 的 选择 1 二 i < 全 
n 同等 可 能 ; 当 已 经 得 到 一 个 排序 网 络 时 ,这 个 过 程 停止 。 试 估计 > 的 预期 的 值 ; 对 于 所 有 “>0， 
它 是 O(n!! 站 吗 ? 

P42. [25] (D.Van Voorhis) 证 明 ;:$S(n) 宇 $(n 一 1)+|lgn|。 

43, [48] 试 求 具有 少 于 C(m ,nn) 个 比较 器 的 一 个 (m,n ) 合 并 网 络 ,或 者 证 明 它 不 存在 。 

44. [501 对 于 某 些 n >8, 求 S(n) 的 精确 值 。 

45. [ M20 ] 试 证 明 ,没有 多 个 扇 区 输出 的 任何 一 个 (1,z”) 合 并 网 络 ,至 少 有 [lg(2+ 1) | 层 延 迟 。 

46. [30] (M. Aigner) 证 明 ,使 用 如 同 习题 6 中 那样 的 ,进行 同时 不 相交 比较 的 任何 算法 ,为 
把 m 个 元 素 同 ”个 元 素 合并 ,所 需要 的 极 小 阶段 数 至 少 是 [lg( + n)1; 因 此 双 调 合并 网 络 有 最 
优 延迟 。 

47. [47] 对 于 某 个 ,习题 6 的 函数 T(n) 是 否 严 格 地 小 于 个 (n)? 

> 48. [26] 我 们 可 以 用 另 一 种 方式 来 解释 排序 网 络 , 让 每 条 线 载 有 m 个 数 的 一 个 多 重 集合 ， 

而 不 是 单个 数 ; 在 这 种 解释 之 下 ,操作 [i:j] 分 别 以 zx; 会 xz) 和 zx; 过 过; 代 蔡 xz; 和 Zz), 即 2m 个 数 了 
出 z; 中 最 小 的 m 个 和 最 大 的 m 个 (例如 ,图 式 


— {3,5} {1,3}—— {1,3} {1,2} eo— {1,2} Go— {1,2} 一 
na 8}—— {5,8} {5,8} {5,7} {2,3} 一 
9 {2,2} {2,3} no 
on on {7,9} — {7,9} {8,9}— {8,9} 


图 解 了 当 m =2 时 的 这 个 解释 ;每 个 比较 器 合并 它 的 输入 并 把 低 的 一 半 和 高 的 一 半分 开 )。 
如 果 a 和 2 每 一 个 都 是 和 个 数 的 多 重 集体 ,我们 说 << 妇 5 当 且 仅 当 a 会 5b= a( 等 价 地 a 过 b5 
= b,a 的 最 大 元 素 小 于 或 等 于 6 的 最 小 )。 于 是 a 从 0 和 a 5。 
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设 a 是 一 个 -网络 ,又 设 z= 《xz1,…,x;) 是 一 个 向 量 ,其 中 每 个 x; 是 mx 个 元 素 的 一 个 多 重 
集合 。 证 明 ,在 上 述 解 释 中 ,如 果 (xa); 不 是 和 (za))， 则 在 D, 中 有 一 个 向 量 y, 使 得 (ya);=1 和 和 
(ya);=0[ 因 此 ,如 果 我 们 以 m 路 合并 来 代替 比较 , 则 x 个 元 素 的 一 个 排序 网 络 变 成 mn 个 元 率 
的 一 个 排序 网 络 。 图 59 所 示 为 使 用 这 种 办 法 由 4 元 排序 器 构造 的 8 元 排序 器 ]。 

> 49. [M23] 使 用 习题 48 中 的 符号 标记 ,证 明 (xz 会 y) 公 z= 工 信人 y 从 z) 和 ( 莹 党 y) 治 和 = 工 
(yy 过 zz); 然 而 (xz 汉 y) 从 = 不 总 等 于 (工人 入 z) 从 (yy 从 z) ,而 且 ( 工 信 y) 汉 (zz 从 z) 治 (y 会 zx) 不 
总 等 于 zx 出 y 出 z 中 间 的 m 个 元 素 。 对 于 这 些 中 间 元 素 , 试 借助 于 zx,y,z 以 及 信和 汉 8 运 算 ， 求 
出 一 个 正确 的 公式 。 

50. [HM46] 考察 习题 48 中 定义 的 从 和 冯 8 操作 
的 性 质 , 是 否 有 可 能 以 某 种 漂亮 的 方式 来 表征 这 个 
代数 中 的 所 有 恒等式 ,或 者 从 有 限 的 恒等式 的 集合 
来 推导 出 所 有 的 恒等式 来 ? 在 这 方面 ,诸如 xz 从 工 
从 过 = 工人 从 工 , 或 者 工 众 (工党 (过 从 (过 党 y)))= 工 
全 (zx 党 y) 这 样 的 恒等式 , 仅 对 mr 三 2 成立, 有 较 小 
的 兴趣 ;仅仅 考虑 对 于 所 有 的 m 成 立 的 恒等式 。 

p51. [M25] (R.L.Graham) 我 们 说 比较 器 [i:j] 、 

在 网 络 ai[i,j]a2 中 是 多 余 的 ,如 果 对 于 所 有 向 量 z， “ ee 
(mi)i 二 (zol) ,或 对 所 有 向 量 xz, (zxa1) i 之 (xat)j。 
证 明 ,如 果 a 是 具有 > 个 非 多 余 比较 器 的 网 络 , 则 至 少 有 不 同 下 标的 > 个 不 同 的 有 序 对 (i,;), 使 得 


对 于 所 有 向 量 x,(xa) ;过 (za);( 因 此 ,不 带 多 余 比较 器 的 一 一 个 网 络 至 多 包含 (” ) 个 模块)。 


P52. [32] (M.O.Rabin,1980) 试 证 明 ,通过 考虑 图 61 所 勾勒 的 形式 的 一 个 网 络 , 来 一 般 地 
判定 一 系列 的 比较 器 是 否定 义 一 个 排序 网 络 ,是 固有 地 困难 的 。 把 输入 编号 为 ze 到 zN 是 方便 
的 ,其 中 N=2mn+ m+2n; 正 整数 m 和 是 参数 。 对 于 1 过 ;二 2n 和 1 二 过 mm ,第 一 个 比较 器 
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图 61 m=3,n=5 的 一 族 网 络 ， 其 排序 能 力 难以 验证 ( 见 习题 52) 
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为 [j:j+2nk]。 然 后 对 于 1 过 j 志 nn ,我 们 有 [2j 一 1:2j][0:2;], 并 行 于 只 使 用 >2n 的 下 标的 一 个 
特殊 子 网 络 。 其 次 ,对 于 1 二; 三 mm ,我们 比较 [0:2mn +2n+j]。 最 后 对 于 (zl1,… ,zx,), 有 一 个 完 
备 的 排序 网 络 ,其 后 为 有 [0:1][1:2]…[N-t:-1:N-1], 其 中 :=mn+n+1。 

a) 借 助 于 特殊 子 网 络 的 特性 ,描述 由 这 样 的 一 个 网 络 排 不 了 序 的 所 有 输入 《zo0,x1，… ,XN)。 

b) 给 定 如 同 (yjV y2V y3)A(y2V y3V y4) 信 … 这 样 的 一 组 短语 ,说 明 怎 样 来 构造 一 个 特殊 的 
子 网 络 ,使 得 图 61 对 所 有 输入 排序 当 且 仅 当 这 些 短语 是 不 可 满足 的 [因此 在 7.9 节 的 意义 下 , 判 
定 一 个 比较 器 序列 是 否 形成 一 个 排序 网 络 是 一 个 协 NP 完 全 的 ]。 

53. [30] (周期 的 排序 网 络 ) 下 列 两 个 16- 网 络 图 解 在 :=4 的 情况 下 ,对 于 n=2’ 的 1 级 网 
络 的 一 般 递 归 构 造 : 





如 果 我 们 从 0 到 2:- 1 对 输入 线 进 行 编号 , 则 在 情况 (a) 中 的 第 / 级 有 比较 器 [i:7] ,其 中 
i mod 2 全 <2 人 和 j=1i 名 (2‘'1"1~-1); 如 同 在 双 调 合并 中 那样 ,总 共有 :2 ' 个 比较 器 。 在 情 
况 (b) 中 ,对 于 0 二 ;<2' 第 一 级 比较 器 为 [27 :271 +1]; 当 2 委 / 委 上, 对 于 0 委 )<2 -21, 第 1 
级 比较 器 为 [27+1:27+2 和 二 ;如同 在 奇偶 合并 中 那样 ,总 共有 (上 -1)2 !+1 个 比较 器 。 

如 果 对 于 某 个 & 之 1, 在 定理 $.2.1H 的 意义 下 ,输入 的 个 数 是 2- 阶 的 , 试 证 明 两 个 网 络 产生 
的 输出 均 为 2 一 阶 。 因 此 ,我 们 可 以 通过 把 它们 传送 到 两 个 网 络 的 任 一 个 上 次 ,来 对 2 个 数 进行 
排序 [ 当 i 很 大 时 ,这些 排序 网 络 大 约 使 用 两 倍 于 算法 5.2.2M 的 比较 ;但 总 共 的 延迟 时 间 和 在 图 
57 中 相同 ,而 且 实 现 更 简单 ,因为 重复 地 使 用 相同 的 网 络 ] 。 

54. [42] 试 分 析 由 mm 排序 器 模块 ,而 不 是 2 排序 器 模块 ,组 成 的 排序 网 络 的 性 质 (例如 ,G. 
Shapiro 已 经 构造 了 如 下 网 络 
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它 使 用 14 个 4 分 类 器 来 对 16 个 元 素 进行 排序 ,这 是 最 好 的 可 能 吗 ? 试 证 明 , 当 m 充分 大 时 ,m7 
个 元 素 可 以 通过 最 多 16 级 的 mx 排序 器 来 加 以 排序 )。 

55. [23] 一 个 排列 网 络 是 一 个 模块 序列 [i :j1]…[i,:j,], 其 中 每 个 模块 [i:j] 可 以 通过 外 部 
控制 来 设置 ,是 将 输入 原样 输出 ,还 是 将 zx; 和 zi 交换 (不 管 zx; 和 > 的 值 是 什么 ) ,并 且 每 个 输入 
的 排列 可 以 通过 模块 的 某 种 设 定 ,在 输出 线 上 得 以 实现 。 每 个 排序 网 络 显然 是 一 个 排列 网 络 ,但 
是 反之 则 不 成 立 : 试 找 出 5 个 元 素 的 一 个 排列 网 络 , 它 仅 有 8 个 模块 。 

56. [25] 假设 二 进位 向 量 zE D, 未 被 排序 。 试 证 明 ,存在 一 个 标准 的 ”网络 a, ,尽管 它 能 
对 DD, 的 所 有 其 它 元 素 进行 排序 ,但 它 不 能 对 a 进行 排序 。 

57. | M35 ] 偶 奇 合并 类 似 于 Batcher 的 奇偶 合并 ,只 是 当 mn >2 时 在 做 类 似 于 (1) 的 一 组 
[mm/21+1n/21- 1 个 比较 -交换 之 前 , 它 递归 地 把 序列 《zj mog2i1 ;Tm-39Xm_1) 同 (yi ,yay， 
yarnj21-12， 以 及 把 (ztmyuna2rlyzn_ayzn) 同 (yy ，…，yi nj2|) 合 并 。 试 证 明 ,无 须 做 多 于 
双 调 方法 的 比较 , 偶 奇 合并 即 可 实现 双 调 合并 的 最 优 延迟 时 间 「lg ( + n)1。 实 际 上 , 即 证 明 由 


偶 奇 合并 所 做 的 比较 次 数 A(m,n), 满 足 C(m,n)SA(m,n)<3(m +n)lg min(m,n)+ m+ 


3 
2 


No 


习 题 一 一 第 二 组 


下 列 习 题 涉及 了 同 排序 有 关 的 若干 不 同类 型 的 最 优 性 问题 。 前 面 的 少数 问题 ,是 以 P.N. 
Armstrong 和 R.J. Nelson 早 在 1954 年 即 研究 过 的 , 冒 泡 排序 有 趣 的 “多 头 ” 推 广 为 基 础 的 [ 见 U.S. 
Patents 3029413,3034102]。 设 1=hi<hs<…<h,=n 是 一 个 递增 的 整数 序列 ;我 们 称 它 做 长 
度 为 m 和 间距 为 的 一 个 “ 头 序 列 ”, 并 用 它 来 定义 一 种 特殊 类 型 的 排序 方法 。 记 录 Rj,…，, Rw 
的 排序 分 若干 次 扫描 进行 ,每 次 扫描 由 N +n 一 1 个 步骤 组 成 。 在 第 j 步 上 (j=1-n,2 一 n,…， 
N 一 1), 应 考察 并 在 必要 时 重新 排列 记录 Rj; ,411] ,Rj; 4[21，"… ,R44[mj ;使 得 它们 的 键 码 成 为 有 序 
的 (这 时 我 们 说 Rj4 4111,… ,Rj4 4[m] 是 “在 读 写 头 之 下 ”。 当 j+h[k]<1 或 >N 时 ,不 考虑 记录 
Rj414[4]; 从 效果 上 看 键 码 Ko,K 1,K-,,… 被 处 理 做 一 co ,而 Ky41,Kwn+s;，… 被 处 理 做 + co。 因 
此 当 jj 三-h[m--1] 或 ;>N--h[2] 时 ,步骤 和 实际 上 是 显然 的 )。 

例如 ,下 表示 出 了 当 m=3,N=9 以 及 hl=1,h,=2,h;=4 时 一 个 排序 的 一 次 扫描 : 


人 -2? 下 -1 Ko 天 kK, 天 Ks Ks Ke K; Ks Ks, Kio Ku Ky 
j=-3 3 1 4 5 9 2 6 8 7 
j= -2 3 1 4 5 9 2 6 8 7 
j= -1 3 1 4 5 9 2 6 8 7 
j=0 1 3 4 5 9 2 6 8 7 
j=1 ] 3 4 5 9 2 6 8 7 
了 三 1 3 2 4 9 5 6 8 7 
J 1 3 2 4 6 5 9 8 7 
] 三 1 3 2 4 5 6 9 8 7 
] 三 1 3 2 4 S$ 6 7 8 9 
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j=6 1 3 2 4 5 6 7 8 9 | 
j=7 1 3 2 4 5 6 7 8 9 
j=8 1 3 2 4 5 6 7 8 9 


当 m=2,h1=1 及 h,=2 时 ,这 个 多 头 的 方法 简化 成 为 冒 泡 排 序 ( 算 法 5.2.2B)。 

58. [21] (James Dugundji) ”证 明 如 果 对 于 某 个 有 ,1 三 k 达 m, 有 hfk+1]=hfk]+1, 则 上 
边 定 义 的 多 头 排序 器 将 在 有 限 次 扫描 中 ,最 终 完 成 对 任何 输入 文件 的 排序 。 但 是 如 果 对 于 1 入 
<m,hlk+1j] 之 h[k]+2, 则 这 个 输入 可 能 永远 排 不 好 序 。 

P59. [30] (Armstrong 和 Nelson) 设 对 1 过 kk<m,h[lk+1] 志 hh[k]+& 有 ,又 设 N 宇 n-1, 证 明 
经 第 一 次 扫描 后 最 大 的 n -1 个 元 素 总 是 被 送 到 它们 最 终 目 的 地 [提示 :使 用 0 一 1 原理 ;如 果 对 
一 些 0 和 1 进行 排序 , 且 1 的 个 数 少 于 ”, 证 明 不 可 能 所 有 的 头 都 读 出 1, 除非 所 有 的 0 都 在 这 些 
头 的 左边 ]。 

证 明 当 这 些 头 满足 给 定 条 件 时 ,排序 将 在 至 多 [(N-1)/(2 一 1) | 次 扫描 中 完成 。 是 否 有 一 个 
输入 文件 , 它 需 要 这 么 多 遍 扫 描 ? 

60. [26] 如 果 n=N, 证 明 :; 当 且 仅 当 对 于 1 二 k<<<m,h[k+1] 二 2h[k] 时 ,第 一 次 扫描 可 以 
保证 把 最 小 的 键 码 放置 到 位 置 RI 上 。 

61. [34] (J. Hopcroft) NN 个 元 素 的 一 个 “完全 排序 器 ”, 是 N= 的 一 个 总 在 一 次 扫描 中 完 


成 的 多 头 排序 器 。 习题 39 证 明 ,序列 (天 ,hy,ha,ha, ,hn) 一 (152,4,7 ,71+ | ) 给 出 一 个 


完全 排序 器 ,该 排序 器 对 于 NN = (™ 41 个 元 素 , 使 用 加 = (VB8N=7+1)/2 个头。 例如 , 头 序列 


《1,2,4,7,11,16,22) 是 对 于 22 个 元 素 的 完全 排序 器 。 

证 明 ,事实 上 头 序列 (1,2,4,7,11,16,23) 是 对 于 23 个 元 素 的 一 个 完全 排序 器 。 

62. [49] 给 定 m ,分 析 使 m 头 完全 排序 器 存在 的 最 大 N。N = O(m’) 吗 ? 

63. [23](V.Pratt) 和 若 对 1 委 & 委 mm ,每 个 头 h; 都 在 位 置 2*-! 上 , 现 要 对 0 和 1 的 序列 =，， 
z2…z2”"-! 进 行 排序 ,其 中 当 且 仅 当 j 是 2 的 一 个 乘 方 时 zx =0, 问 需要 多 少 次 扫描 ? 

64. [24] (一 致 排序 ) 5.3.1 小节 中 图 34 的 树 在 第 一 级 的 两 个 分 支 中 进行 了 2:3 的 比较 ， 
而 在 第 二 级 的 每 个 分 支 中 比较 1:3( 除 非 该 比较 是 多 余 的 ) 。 一 般 地 说 ,我 们 可 以 考虑 在 这 种 意义 


下 一 致 的 所 有 排序 算法 类 ;假定 M = (个 对 偶 1(a,6)11<a<6<N| 已 经 安排 成 一 个 序列 


(a1,01),(a2,602),"**, (aM, OM) 

我 们 可 以 逐个 地 对 未 知 结果 的 对 进行 比较 K。: K。, K。 : K。,… 诸 对 偶 (a,5) 共 有 M1! 个 排列 ， 
其 中 每 个 都 定义 了 一 个 一 致 的 算法 。 一 致 排序 的 概念 是 H.L.Beus 给 出 的 LJACM 17(1970),482 
一 495] ,他 的 工作 为 下 面 的 几 个 习题 给 出 了 提示 。 

借助 于 图 论 来 正式 地 定义 一 致 排序 是 方便 的 。 设 G 是 顶点 11,2,…,N1| 上 的 有 向 图 ,没有 有 
回 边 ,对 于 ;=1,2,……，M ,我 们 对 G 加 上 有 向 边 如 下 : 

情况 1 G 包含 从 a; 到 4; 的 一 条 路 径 。 把 有 向 边 ww 一 包 加 到 G 中 。 

情况 2 G 包含 从 5b; 到 a 的 一 条 路 径 。 把 有 向 边 5; 习 a; 加 到 G 中 。 

情况 3 G 不 包含 从 a; 到 2 或 六 到 a; 的 路 径 。 比 较 天。 :KK。 ,如 果 K。 二 Ks , 则 把 有 问 边 a; 
一 入 加 到 C 中 ;如 果 K。> K。 , 则 把 有 向 边 六 一 ai 加 到 G 中 。 
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我 们 主要 关心 由 一 个 一 致 排序 算法 所 做 的 键 码 比较 次 数 ,而 不 是 关心 用 什么 方法 避免 多 余 
的 比较 ;图 G 不 必 明 显 地 构造 ,这 里 使 用 它 仅 仅 是 用 它 来 帮助 定义 一 致 排序 的 概念 。 

我 们 也 将 考虑 有 限制 的 一 致 排序 ,其 中 在 上 述 的 情况 1.2 和 3 中 ,仅仅 计算 长 度 为 2 的 路 径 
(一 个 有 限制 的 一 致 排序 算法 可 能 会 进行 某 些 多 余 的 比较 ,但 习题 65 说 明 在 有 限制 的 情况 下 分 析 
要 更 简单 些 ) 。 

证 明 当 对 偶 序列 按 字典 次 序 排列 

(TZ) 3 A (LN)(23) (2 A (2 NN IAA 
时 ,有 限制 的 一 致 算法 和 一 致 算法 是 一 样 的 。 证 明 ,事实 上 , 当 键 码 不 同 且 快速 排序 的 多 余 比 较 如 
习题 5.2.2-24 中 那样 被 消除 时 (忽略 在 快速 排序 中 实际 进行 的 比较 次 序 , 仅 仅 考虑 哪些 键 码 对 被 
比较 过 ) ,这 两 个 算法 都 等 价 于 “快速 排序 "(算法 5.2.2Q)。 

65. [ M381 如 同 在 习题 64 中 那样 ,给 定 一 个 对 侦 序 列 (a1,6b1)…(am ,bxm), 设 ci 是 使 得 ;< 
< 之 i 且 使 (a;,6b;),(aj,b;),(ai ,br) 形 成 一 个 三 角形 的 对 侦 (j,&) 的 数目 。 

a) 证 明 通过 有 限制 的 一 致 排序 算法 所 做 的 平均 比较 次 数 为 >) ”2/(c + 2)。 


b) 使 用 a) 和 习题 64 的 结果 来 确定 快速 排序 执行 的 非 多 余 比 较 的 平均 次 数 。 

c) 合并 排序 引起 了 (但 不 等 价 于 ) 下 列 的 对 偶 序列 : 

CTC A OL (Ld A (1 (0 (L/L)( 23) 
试问 以 这 个 序列 为 基础 的 一 致 方法 ,平均 说 来 , 比 快速 排序 执行 更 多 还 是 更 少 的 比较 ? 


66. [ M29] 在 最 坏 的 情况 下 ,快速 排序 进行 { ) 次 比较 。 是 否 所 有 有 限制 的 一 致 排序 算法 


(在 习题 63 的 意义 下 ) 在 其 最 环 的 情况 下 ,都 执行 ] 次 比较 ? 


67. [M48] (H.L.Beus) 就 所 有 (有 限制 的 ) 一 致 排序 算法 而 言 ,快速 排序 是 否 有 极 小 的 平均 
比较 次 数 ? 

68. [25 ] Howard B.Demuth 的 博士 论文 “Electronic Data Sorting” (Stanford University ,October 
1956) 也 许 是 详细 讨论 计算 复杂 性 问题 的 第 一 篇 论文 。Demuth 考虑 了 排序 设备 的 大 干 抽象 模型 ， 
并 建立 了 每 个 模型 可 达到 的 平均 和 极 大 执行 时 间 的 下 限 和 和 上限。 他 的 最 简单 的 模型 “循环 无 逆 
存储 "( 见 图 60) ,是 本 习题 的 主题 。 

考虑 一 台 机 器 , 它 在 若干 次 扫描 中 对 RiR2…RN 排序 ,其 中 每 次 扫描 都 包含 下 列 N+1 步 : 

步骤 1 置 R<eRI(R 是 机 器 内 部 的 一 个 寄存 器 )。 

步骤 i 对 于 1<iN ,或 者 是 (i) 置 R 1 一 R,R 一 R,; 或 者 是 (ii) 
置 R,_ 1 二 RR,,R 保持 不 变 。 

步 台 N+1 置 RN<-R。 

问题 是 找 出 一 种 方式 ,每 次 在 方案 (i) 和 (ii) 中 进行 选择 ,以便 把 进 
行 排 序 所 需要 的 扫描 次 数 极 小 化 。 

证 明 对 这 个 模型 来 说 ， 彤 泡 排序 "技术 是 最 优 的 。 换 名 话说, 证明 
每 当 RR, 时 选择 方案 (i) ,以 及 每 当 RR> R, 时 选择 方案 (ii) 的 这 个 策 
略 ,将 达到 极 小 的 扫描 次 数 。 
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Isaiah 19:9 图 60 一 种 设备 ,对 它 


来 说 冒 泡 排序 是 最 优 的 
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5.4 外 部 排序 


现在 该 是 我 们 来 研究 当 有 待 排序 的 记录 数 大 于 计算 机 的 高 速 内 部 存储 器 所 能 
容纳 的 数量 时 ,出现 的 一 些 有 趣 问 题 的 时 候 了 。 外 部 排序 与 内 部 排序 十 分 不 同 , 因 
为 对 外 部 文件 进行 存 取 的 有 效 技 术 受 到 相当 严格 的 限制 ,尽管 在 两 种 情况 下 排序 问 
题 都 是 把 一 个 给 定 文件 排 成 非 减 的 次 序 。 对 外 部 排序 来 说 ,必须 把 数据 结构 安排 成 
使 得 相当 慢 的 外 部 存储 设备 (磁带 、 磁 盘 、 磁 鼓 等 ) ,能 快速 地 满足 排序 算法 的 要 求 。 
因而 ,我们 已 经 研究 过 的 大 多 数 内 部 排序 技术 (插入 ,合并 ,选择 ) ,实际 上 对 于 外 部 
排序 是 无 用 的 ,从 而 有 必要 重新 考虑 全 部 的 问题 。 

例如 ,假设 要 对 一 个 有 500 万 个 记录 RiR2…Rsoooooo 的 文件 排序 ,而且 每 个 记 
录 R; 是 20 个 字 长 的 (尽管 键 码 K; 不 必 这 人 么 长 )。 如 果 这 些 记 录 中 一 次 只 能 有 100 
万 个 装 人 一 台 计 算 机 的 内 部 存储 器 中 , 则 应 怎么 做 呢 ? 

一 个 相当 明显 的 解决 方法 是 , 先 独立 地 对 > 个 子 文 件 Ri1*** R1000000, R1000001 全 
R ,000000 ，" , 尺 4000001'“ 民 s000000 排 序 ,然后 把 得 到 的 子 文件 合并 在 一 起 。 斑 而 ,这 个 合 
并 过 程 仅 仅 使 用 非常 简单 的 数据 结构 , 即 以 与 栈 或 队列 相同 的 顺序 方式 被 访问 的 线 
性 表 ; 因 此 合并 可 以 毫 无 困难 地 在 最 少 费 用 的 外 部 存储 设备 上 完成 。 

刚才 描述 的 过 程 一 一 先 内 部 排序 ,再 外 部 合并 一 一 的 使 用 是 非常 普遍 的 ,我 们 
将 把 对 于 外 部 排序 的 研究 主要 集中 在 这 个 主题 的 各 种 变形 上 。 

通过 初始 的 内 部 排序 阶段 产生 的 记录 的 递增 序列 ,在 关于 排序 的 公开 著作 中 通 
常 称 做 囊 ;这 个 术语 是 相当 广泛 的 ,可 惜 的 是 , 它 同 计算 机 科学 的 其 它 分 文中 为 一 种 
更 广泛 的 用 法 相抵 触 ,在 这 种 更 广泛 的 用 法 下 , 串 是 字符 的 任意 序列 。 在 关于 排列 
的 研究 中 ,已 经 给 一 个 文件 的 排 好 序 的 段落 取 了 一 个 好 名 字 , 即 习 惯 上 它 和 被 称 做 递 
增 的 路 段 或 简单 地 说 是 路 段 ,因此 ,我 们 将 继续 使 用 "路段 "这 个 词 来 描述 一 个 文件 
的 已 排 好 序 的 部 分 。 用 这 种 方法 ,就 可 能 把 “路 段 的 串 " 和 “ 串 的 路 段 " 两 者 区 别 开 来 
而 不 致 引起 混 消 。 

现在 首先 考虑 使 用 磁带 作为 辅助 存储 时 的 外 部 排序 过 程 。 遵 循 算法 5.2.4N,S 
和 上 LL 的 中 心思 想 ,用 磁带 进行 合并 的 最 简单 和 具有 吸引 力 的 方法 也 许 是 平衡 的 两 路 
合并 。 在 这 个 过 程 中 ,我们 使 用 4 个 “工作 带 ”。 在 第 一 阶段 ,由 内 部 排序 产生 的 递 
增 路 段 被 交替 地 放置 在 磁带 1 和 磁带 2 上 ,直到 输入 被 穷尽 为 止 。 然 后 磁 融 工 和 磁 
带 2 被 重 绕 到 它们 开始 的 位 置 ,从 这 些 磁带 上 取出 路 段 再 次 合并 ,得 到 其 长 度 为 原 
来 路 段 长 度 2 倍 的 新 路 段 ;这 些 新 路 段 也 像 它们 形成 时 那样 交替 地 写 到 磁带 3 和 磁 
带 4 上 (如 果 磁 带 1 包含 的 路 段 比 磁带 2 多 一 个 , 则 假定 磁带 2 上 有 一 个 长 度 为 0 
的 额外 的 虚拟 路 段 ) ,然后 所 有 的 磁带 都 被 重 绕 ,而 且 磁 带 3 和 磁带 4 的 内 容 被 合并 
成 交替 地 记录 到 磁带 1 和 磁带 2 上 的 4 倍 长 度 的 路 段 。 这 个 过 程 继 续 进行 ,每 次 把 
路 段 的 长 度 加 倍 , 直 到 仅仅 剩 下 一 个 路 段 ( 即 完全 排 好 序 的 文件 ) 为 止 。 如 果 在 内 部 
排序 阶段 产生 了 S 个 路 段 ,而 且 如 果 2* 1 < S 志 2*, 则 这 个 平衡 的 2 路 合并 过 程 对 
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所 有 数据 恰好 进行 了 &= [lgsS | 次 合并 扫描。 

例如 ,在 上 述 通过 容量 为 1 000 000 的 一 个 内 部 存储 对 5 000 000 个 记录 排序 的 情 
况 下 ,可 知 S=5。 排 序 过 程 的 初始 分 布 阶 段 按 如 下 方式 把 5 个 路 段 放 置 到 磁带 上 

磁带 1 Ri*… Rio00000; R2000001'“* 民 3000000; 民 4000001'** 下 5000000 

磁带 2 R100001"** R2000000 ; R3000001"** 人 4000000 (1) 

做 带 3 【( 空 ) 

磁带 4 ( 空 ) 
然后 ,第 一 次 合并 扫描 ,按照 它 读 磁 带 1 和 磁带 2 的 顺序 ,在 磁带 3 和 磁带 4 上 产生 
更 长 的 路 段 如 下 (一 个 虚拟 的 路 段 已 经 隐 式 地 加 在 磁带 2 的 结尾 ,使 得 磁 帝 1 上 的 
最 后 的 路 段 民 4000001“ 民 so00000 仅 仅 找 由 到 磁 市 3 上 ): 

磁带 3 Ri*… R2000000; R4000001'** 民 5000000 (2) 

磁带 4 R2000001… R4000000 
在 所 有 的 磁带 被 重 绕 之 后 ,对 于 数据 的 下 一 遍 扫描 产生 (再 次 简单 地 拷贝 路 段 
Ron “RRso00000 ;但 是 如 果 我 们 以 8 000 000 个 记录 开始 , 则 这 时 磁带 2 就 将 包含 
R 4000001'** Rgo00000 7 ): 

磁带 1 K1*** Ka000000 (3) 

人 磁带 2 K a000001'** RK s000000 
最 后 在 另 一 轮 重 绕 之 后 ,在 磁带 3 上 产生 R1… 尺 soo0000 ,排序 即 告 完成 。 

平衡 的 合并 可 以 容易 地 推广 到 对 于 任何 T 宇 3 的 工 条 磁带 的 情形 。 选 择 任 意 
数 P,1 过 P<T, 而 把 条 磁带 分 成 两 “ 边 ”,P 条 磁带 在 左边 , 工 - 条 磁带 在 石 
边 。 初 始 的 路 段 尽 可 能 均匀 地 分 配 到 左边 的 PP 条 磁带 上 ;然后 从 左 到 右 进行 已 路 
合并 , 紧 接 着 从 右 到 左 进行 ( 工 - 己 ) 路 合并 ,等 等 ,直到 排序 完成 为 止 。P 的 最 好 选 
择 通常 认为 是 | T/2 1( 见 习题 3 和 4)。 

平衡 的 两 路 合并 是 T=4,P=2 时 的 特殊 情况 。 用 更 多 条 磁带 重新 考虑 上 面 的 
例子 , 取 T=6 和 本 =3。 现 在 的 初始 分 布 是 

磁 市 1 Ri*… Rio00000; R3000001'** 民 4000000 

磁带 2 Riooo001'** R2000001 ;5 R4000001''* RRs000000 (4) 

磁带 3 R2000001'…* R3000000 

第 一 遍 合并 扫描 产生 了 (在 磁带 3 上 已 经 假定 有 一 个 虚拟 路 段 ) 

磁带 4 R1*… R3000000 

人 磅 市 5 R 3000001'** KR so00000 (5) 

磁 市 6 ( 空 ) 
第 二 遍 合 并 扫描 完成 了 这 个 工作 ,把 Rj… Rso00000 放 置 到 磁带 1 上 。 在 这 个 特殊 的 
情况 下 ,全 = 6 实际 上 和 全 = 5 是 一 样 的 ,因为 第 6 条 磁带 仅 当 S 之 7 时 才 使 用 。 

三 路 合并 实际 上 比 两 路 合并 要 求 更 多 的 计算 机 处 理 时 间 , 但 是 比 起 谈 、 写 和 重 
绕 磁 带 所 需要 的 时 间 来 ,一般 均 可 忽略 。 我 们 可 以 仅仅 考虑 磁带 移动 的 数量 ,而 得 
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到 一 个 相当 好 的 运行 时 间 的 估计 。(4) 和 ($5) 中 的 例子 只 要 求 对 数据 扫描 两 次 ,而 
=4 时 须 扫 描 3 次 。 相 比 之 下 ,本 = 6 时 这 个 合并 所 花费 的 时 间 仪 仅 约 为 前 者 的 
2/3。 

平衡 合并 十 分 简单 ,但 是 如 果 我 们 更 仔细 地 观察 , 则 立即 发 现 , 它 不 是 处 理 上 边 
讨论 的 特殊 情形 的 最 好 途径 ! 不 从 (1) 进 行 到 (2) 并 重 绕 所 有 的 磁带 ,而 是 在 磁带 3 
和 磁带 4 分 别 地 包含 R1*… R ,000000 和 和 RRp000001 “Rao00000 之 后 , 即 停 止 第 一 过 合并 扫 
描 , 且 使 磁带 1 做 好 读 Ri000001…“ 民 5000000 的 准备 。 然后 重 绕 矿 带 2,3,4, 最 后 通过 在 
磁带 2 上 进行 三 路 合并 来 完成 这 个 排序 。 则 在 这 个 过 程 中 从 磁带 上 读 记 录 的 总 数 
量 , 同 在 平衡 方案 中 的 5 000 000+5 000 000+5 000 000=15 000 000 相对 照 ,将 仅 
仅 是 4 000 000+5 000 000=9 000 000。 一 台 灵 巧 的 计算 机 应 有 能 力 做 到 这 一 点 ! 

其 实 , 当 有 5 个 路 段 和 4 条 磁带 时 ,通过 把 它们 如 下 分 布 ,我 们 甚至 能 做 得 更 
好 : 

磁带 1 R1*** Rioo0000; R3000001'** R4000000 

磁 市 2 R 1000001'“* 民 2000000 ; 民 4000001*"* 民 5s000000 

位 市 3 R 2000001'** 开 3000000 

磁带 4 ( 空 ) 
然后 对 磁带 4 进行 三 路 合并 , 紧 接 着 进行 磁带 3 和 磁带 4 的 一 次 重 绕 , 再 紧 接 着 进 
行 在 磁带 3 上 的 三 路 合并 ,仅仅 通过 读 3 000 000+ 5 000 000=8 000 000 个 记录 就 
完成 了 排序 。 

而 且 ,当然 ,如果 有 6 条 磁带 , 则 可 以 把 初始 的 路 段 放置 到 磁带 1 到 磁带 5 上 ， 
并 且 通 过 对 磁带 6 进行 五 路 合并 ,在 一 次 扫描 中 就 完成 排序 。 这 些 考 虑 说 明 简 单 的 
平衡 合并 不 是 最 好 的 , 故 考 虑 改进 的 合并 型 式 是 有 趣 的 。 

本 章 的 以 下 部 分 ,将 更 深入 地 分 析 外 部 排序 。 在 5.4.1 小 节 中 ,我 们 考虑 “内 部 
排序 "阶段 , 它 产 生 初 始 的 路 段 ;其 中 特别 有 趣 的 是 “ 蔡 代 选择 "技术 。 它 利用 在 大 多 
数 数据 中 存在 的 次 序 , 来 产生 其 长 度 实际 上 大 大 超过 内 部 存储 容量 的 初始 路 段 。 
5.4.1 小 市 也 讨论 了 适合 于 多 路 合并 的 数据 结构 。 

5.4.2 小节 到 5.4.5 小 节 讨 论 了 最 重要 的 合并 型 式 。 当 我 们 学 习 这 些 型 式 的 
特征 时 ,最 好 先 不 忙于 去 跟 那 些 烦人 的 磁带 机 和 有 待 排 序 的 实际 数据 打交道 ,而 是 
先 有 一 个 相当 朴素 的 磁带 排序 的 概念 。 例 如 ,可 以 冒失 地 (如 上 边 所 做 的 那样 ) 假 
定 ,原来 的 输入 记录 在 初始 分 布 阶段 神秘 地 出 现 ;事实 上 ,这 些 输 入 记录 可 能 占用 1 
条 磁带 ,而 且 也 可 能 甚至 充满 若 于 卷 磁带 ,因为 磁带 并 非 无 限 长 ! 最 好 是 ,在 对 经 典 
的 合并 样式 获得 原则 性 的 理解 之 前 ,忽略 这 些 过 于 实际 的 考虑 。 在 5.4.6 小 节 , 将 
讨论 强烈 地 影响 合并 型 式 选择 的 现实 中 的 约束 ,这 个 讨论 使 我 们 又 回 到 实际 中 来 。 
5.4.6 小 节 中 ,使 用 在 实际 中 出 现 的 各 种 各 样 的 假定 ,来 比较 5.4.2 小 节 到 5.4.5 小 
节 的 基本 合并 型 式 。 

5.4.7 小 节 和 5.4.8 小 节 中 讨论 了 不 是 以 合并 为 基础 的 解决 外 部 排序 的 一 些 
其 它 方法 。 最 后 ,5.4.9 小 节 通 过 讨论 诸如 磁盘 和 磁 鼓 等 这 样 的 海量 存储 的 重要 排 
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序 问 题 ,完成 了 对 于 外 部 排序 的 综述 。 

在 最 初 编写 本 书 时 ,磁带 是 大 量 使 用 的 ,而 磁盘 驱动 器 还 是 昂贵 的 。 但 在 20 世 
纪 80 年 代 , 磁 盘 大 为 改进 ,而 到 了 20 世纪 90 年 代 末 ,它们 在 大 多 数 的 计算 机 系统 
中 ,几乎 完全 替代 了 磁带 机 。 因 此 曾经 一 度 是 很 关键 的 磁带 合并 模式 的 诬 题 ,对 于 
当前 的 需要 来 说 ,已 变 成 了 只 有 很 有 限 的 关系 了 。 

但 是 许多 模式 仍 是 十 分 优美 的 ,而 且 相 关 的 算法 反映 了 早年 在 计算 机 科学 中 所 
完成 的 某 些 最 好 的 研究 成 果 ; 这 些 技术 实在 太 漂 亮 了 ,不 应 仓促 地 扔 进 历 史 的 垃 专 
堆 去 。 确 实 , 这 些 方法 中 把 理论 同 实 际 相 结合 的 方式 是 特别 有 教 益 的 。 因 此 ,以 下 
我 们 以 它们 在 最 后 谢幕 之 前 可 能 是 最 隆重 的 出 场 这 样 一 种 方式 ,对 它们 进行 仔细 和 
完整 的 讨论 。 

For all we know now, 
these techniqgues may well become crucial once again. 
—PAVEL CURTIS(1997) 


习题 


1. [15] 正文 建议 首先 进行 内 部 排序 , 紧 接 着 进行 外 部 合并 ,为 什么 不 能 去 掉 内 部 排序 阶段 ， 
而 是 从 一 开始 就 把 记录 合并 成 越 来 越 长 的 路 段 ? 

2 . [10 当 举 例 的 记录 RiR2…RR5oooooo 使 用 一 个 3- 磁 寓 平 衡 方 法 以 P =2 进行 排序 时 ,相当 
于 (1) ~ (3) 磁 带 的 内 容 序 列 将 是 什么 ?请 把 这 同 4- 磁 带 合并 比较 ;在 初始 的 路 段 分 布 好 之 后 ,对 
所 有 的 数据 要 做 多 少 次 扫描 ? 

3. [20] 说 明 当 P(T-P)*"1<S 过 Pt(T-P)* 时 ,应 用 于 S 个 初始 路 段 的 平衡 的 (P, 工 - 
P) 路 合并 花费 2& 次 扫描 ;而 当 PR(T-P)*< SP*'1( 修 ~ P)* 时 , 它 花 费 2k+1 次 扫 撕 。 

给 出 对 于 (a) 当 工 =2P 时 ,作为 S 的 函数 的 扫描 的 精确 次 数 , 和 (b) 对 于 一 般 的 PP 和 全 , 当 5S 
一 co 时 ,扫描 的 近似 次 数 的 一 个 简单 公式 。 

4. [HMI5] 对 于 1 二 P<T,P 的 什么 值 使 得 已 ( 开 - 卫 ) 取 极 大 ? 


5.4.1 多 路 合并 和 蔡 代 选择 


在 5.2.4 小 节 中 ,我 们 研究 了 以 两 路 合并 为 基础 的 内 部 排序 方法 , 即 把 两 个 有 
序 的 序列 合并 成 一 个 有 序 序列 的 过 程 。 不 难 将 其 推广 成 P 路 合并 的 思想 ,其 中 P 
个 输入 路 段 被 合并 成 一 个 输出 路 段 。 

假定 已 经 给 定 P 个 递增 的 路 段 , 即 ,其 键 码 按 非 减 次 序 排列 的 记录 。 把 它们 合 
并 的 明显 方式 ,是 考察 每 个 路 段 的 第 一 个 记录 ,选择 其 中 键 码 最 小 的 那个 ;然后 输出 
此 记录 ,同时 从 输入 中 撤消 它 ; 之 后 重复 这 一 过 程 。 在 任何 给 定 的 时 刻 ,我 们 都 仅 需 
考虑 已 个 键 码 (每 个 输入 路 段 一 个 键 码 ) ,并 选择 最 小 的 。 如 果 有 两 个 或 者 更 多 个 
最 小 的 键 码 , 那 就 任意 选择 一 个 。 

当 PP 不 太 大 时 ,通过 简单 地 进行 P 一 1 次 比较 来 求 当 前 所 有 键 码 的 最 小 痢 , 是 
一 种 方便 的 选择 方法 。 但 当 PP 为 8 或 更 大 时 ,通过 使 用 5.2.3 小 节 所 描述 的 那样 一 
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株 选 择 树 ,我 们 就 可 以 节省 工作 量 ; 于 是 一 旦 建立 了 树 , 每 次 就 将 仅仅 需要 大 约 lg P 
次 比较 。 
例如 ,考虑 四 路 合并 的 情形 ,用 两 级 选择 树 : 


步骤 1 087 
步骤 2 087 sd 


步骤 3 087 154 170< 





步骤 9 087 154 170 426 503 612 653 908 oo% | 
在 这 个 例子 中 ,每 个 路 段 的 末尾 都 放置 一 个 附加 的 键 码 “co” ,使 得 合并 优雅 地 结束 。 
由 于 外 部 合并 一 般 都 涉及 非常 长 的 路 段 , 故 添 加 磁带 有 co 键 码 的 记录 后 ,无 论 是 数 
据 的 长 度 或 合并 的 工作 量 都 不 会 有 实质 性 的 增加 ,而且 这 样 的 “哨兵 "记录 经 凋 用 作 
一 项 界定 一 个 文件 上 路 段 的 有 用 技术 。 

在 上 述 过 程 开 始 之 后 ,每 一 步 都 把 最 小 的 元 素 换 成 同一 路 段 中 随后 的 元 素 ,并 
且 改 变 在 选择 树 中 对 应 的 路 径 。 于 是 ,该 树 在 步骤 1 中 包含 087 的 3 个 位 置 在 步 绎 
2 中 被 改变 ;在 步骤 2 中 包含 154 的 3 个 位 置 在 步骤 3 中 被 改变 ,等 等 。 在 选择 树 中 
用 另 一 个 键 码 来 代替 一 个 键 码 的 过 程 , 称 为 替代 选择 。 

我 们 可 以 从 几 个 方面 来 考察 这 种 四 路 合并 。 从 一 种 观点 看 , 它 等 价 于 像 协 同 子 
程序 那样 并 发 执行 的 3 个 两 路 合并 ;选择 树 中 的 每 一 个 节点 ,都 代表 一 个 包含 在 并 
发 合并 过 程 中 的 序列 。 选 择 树 的 操作 实质 上 同一 个 具有 “最 小 者 先 出 ”原则 的 优先 
队列 一 样 。 

如 同 5.2.3 小 节 一 样 ,我 们 可 以 使 用 一 个 堆 代 替 一 株 选 择 树 ,以 实现 优先 队列 
(当然 堆 将 安排 成 最 小 元 素 出 现在 项 上 ,而 不 是 最 大 的 元 素 在 顶 上 ,应 颠倒 等 式 
5.2.3-(3) 的 顺序 )。 由 于 一 个 堆 并 没有 固定 的 大 小 ,因此 我 们 避免 使 用 “%" 键 码 ; 
当 堆 成 空 时 ,合并 完成 。 另 一 方面 ,应 用 外 部 排序 时 通常 都 要 人 处理 相当 长 的 记录 和 
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键 但 , 故 堆 中 填 人 指 问 键 码 的 指针 以 代 巷 键 码 本 身 ; 下 边 我 们 将 看 到 ,选择 树 可 以 以 
这 样 一 种 方便 的 方式 由 指针 表示 ,在 这 种 情况 下 ,它们 可 能 优 于 堆 。 


“失利 者 的 树 图 62 所 示 为 具有 12 个 外 部 ( 方 框 ) 节 点 和 11 个 内 部 (圆圈 ) 节 
点 的 完备 二 又 树 ;如 果 把 这 株 树 看 做 是 选择 最 小 键 码 的 一 次 锦标 赛 的 话 , 则 外 部 节 
点 中 已 填 入 键 码 ,而 内 部 节点 中 已 经 填 和 人 “胜利 者 ”"。 每 个 节点 上 边 小 号 数字 标明 了 
为 完备 的 二 又 树 分 配 连续 存储 位 置 的 传统 方法 。 

当 最 小 的 键 码 061 用 图 62 中 选择 树 的 另 一 个 键 码 来 代替 时 ,为 确定 选择 树 的 
新 状态 我 们 需要 考察 键 码 512,087 和 1$4 , 而 非 其 它 现 有 的 键 码 。 把 此 树 看 做 一 场 
锦标 赛 ,这 3 个 键 码 就 是 在 竞赛 中 同 061 对 侄 的 失利 者 。 这 提示 我 们 ,在 这 株 树 的 
内 部 节点 中 真正 应 该 存储 的 是 每 次 对 登 的 失利 者 ,而 不 是 胜利 者 ;这 样 , 为 更 新 这 株 
树 所 需要 的 信息 就 很 容易 得 到 了 。 
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图 62 使 用 一 个 其 节点 编号 为 1 到 23 的 
二 义 树 来 选择 最 小 键 码 的 一 次 锦标 赛 


图 63 为 与 图 62 同样 的 树 ,但 它 表示 失利 者 而 不 是 胜利 者 。 在 这 株 树 的 顶部 已 
经 附加 了 一 个 额外 的 数 0 ,指出 这 场 锦标 赛 的 冠军 。 注 意 ,除了 冠军 之 外 每 个 键 码 
都 恰巧 是 一 次 比赛 的 失败 者 (参见 5.3.3 小 节 ), 所 以 每 个 键 码 都 在 一 个 外 部 节点 中 
出 现 一 次 和 在 一 个 内 部 节点 中 出 现 一 次 。 

实际 上 ,图 63 底部 的 外 部 节点 表示 存 于 计算 机 存储 器 中 的 相当 长 的 记录 ,而 内 
部 方 点 表 不 指向 这 些 记 录 的 指针 。 注 意 ,P 路 合并 恰巧 调用 P 个 外 部 节点 和 PP 个 内 
部 广 反 ,每 个 都 在 相 邻 的 组 中 ,于 是 这 本 身 就 提示 了 若干 有 效 的 存储 分 配方 法 。 不 
难看 出 ,如 何 利用 替代 选择 的 “面向 失利 者 "的 树 ;我 们 将 在 本 节 的 稍 后 部 分 稍微 详 
细 地 讨论 这 个 算法 。 


由 蔡 代 选择 所 产生 的 初始 路 段 ”如 果 基 本 上 用 输入 数据 本 身 进行 P 路 合并 ， 
则 蔡 代 选择 技术 也 可 以 用 于 外 部 排序 的 第 一 阶段 ! 在 这 种 情况 下 ,把 已 取得 相当 
大 ,使 得 内 部 存储 器 基 本 上 已 被 充满 。 当 输出 一 个 记录 时 , 它 就 被 下 一 个 输入 记录 
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图 63 和 图 62 相同 的 锦标 赛 ,但 显示 的 是 失利 者 而 不 是 胜利 者 ; 
型 车 出 现 于 最 项 上 


所 代 蔡 。 如 果 新 记录 的 键 码 小 于 刚才 输出 的 键 码 , 则 不 能 把 它 包括 在 当前 的 路 段 
中 ;人 否则 可 以 用 通常 的 方式 把 它 送 人 选择 树 中 ,并 且 它 将 形成 当前 正在 产生 的 路 段 
的 一 部 分 。 于 是 每 个 路 段 就 能 包含 多 于 P 个 记录 ,尽管 任何 时 候 在 选择 树 中 决 没 
有 多 于 P 个 记录 。 表 1 所 示 为 P=4 的 这 一 过 程 :磁带 圆 括号 的 数 将 要 包括 进 随 后 
的 路 段 中 。 

表 1 四 路 替代 选择 的 例子 


存储 内 容 输 出 
503 087 512 061 061 
503 087 512 908 087 
503 170 512 908 170 
503 897 512 908 503 
(275) 897 512 908 512 
(275) 897 653 908 653 
(275) 897 (426) 908 897 
(275) (154) (426) 908 908 
(275) (154) (426) (509) (路 段 结 束 ) 
275 154 426 509 154 
275 612 426 509 275 
等 等 


形成 初始 路 段 的 这 一 重要 方法 ,首先 是 由 Harold H. Seward 描述 的 [硕士 论文 ， 

Digital Computer Laboratory Report R-232 (Mass. Inst. of Technology, 1954),29~ 

301, 他 给 出 的 理由 使 人 们 确信 , 当 应 用 于 随机 数据 时 ,这 些 路 段 将 包含 1.5P 个 以 
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上 的 记录 。1950 年 左右 ,A.I.Dumey 在 谈 到 工程 研究 协会 设计 的 一 部 特殊 排序 设 
备 时 ,也 提出 了 这 个 思想 ,但 他 没有 发 表 。“ 蔡 代 选 择 ” 这 一 名 称 , 是 由 E.H. Friend 
杜撰 的 [JACM 3(1956),154], 他 解释 说 :“ 提 不 出 所 产生 序列 的 预期 长 度 的 公式 ， 
但 是 实验 提示 2P 是 一 个 合理 的 预测 。 

为 了 说 明 2P 确 是 预期 的 路 段 长 度 ,E.F.Moore 发 现 了 一 种 聪明 的 方式 ,他 把 
这 个 情况 同 在 一 个 圆 形 轨道 上 的 扫 雪 机 做 了 比较 (U.S. Patent 2983904 (1961)， 
columns 3 一 4)。 考 虑 图 64 中 所 示 的 情况 ; 雪 片 均匀 地 落 在 一 条 圆 形 的 路 上 ,一 人 台 白 
独 的 扫 雪 机 不 断 地 清扫 雪 。 一 旦 已 经 把 雪 扫 出 路 外 , 它 就 从 这 个 系统 消失 。 可 以 通 
过 实数 z 来 指明 路 标 ,0 过 zx < 之 1; 落 在 位 置 x 的 雪 片 表示 其 键 码 为 z 的 输入 记录 ,而 
扫 雪 机 表示 替代 选择 的 输出 。 扫 雪 机 的 基本 速度 同 它 所 过 到 的 雪 的 高 度 成 反比 , 旦 
情况 是 完全 平衡 的 , 即 在 路 上 雪 的 总 量 在 所 有 时 刻 都 恰巧 是 P。 每 当 扫 雪 机 通过 扣 
0 时 , 便 在 输出 中 形成 一 个 新 的 路 段 。 

在 这 个 系统 已 经 运行 一 段 时 间 之 后 ,显然 ,直观 上 它 将 趋 于 一 个 稳定 状态 ,在 这 
个 状态 下 , 扫 雪 机 以 恒 速 运行 (由 于 这 个 轨道 的 圆 形 对 称 性 )。 这 意味 着 当 遇 到 扫 竺 
机 时 , 雪 处 于 常数 高 度 中 ,而 且 如 图 65 所 示 ,这 高 度 在 扫 雪 机 前 面 线性 地 降低 。 由 
此 推出 ,在 一 个 循环 ( 即 路 段 长 度 ) 中 所 扫除 的 雪 的 体积 是 任何 一 个 时 候 存 在 的 量 
( 即 忆 ) 的 两 倍 。 





图 64 ”在 环形 圆 图 上 连续 不 停 运行 的 扫 雪 车 


在 许多 商业 应 用 中 输入 数据 不 是 完全 随机 的 ; 它 已 经 有 某 种 程度 的 既定 次 序 。 
因此 由 替代 选择 产生 的 路 段 很 可 能 包含 甚至 2P 个 以 上 的 记录 。 我 们 将 看 到 ,外 部 
合并 排序 所 需要 的 时 间 在 很 大 程度 上 受 初始 分 布 阶 段 所 产生 的 路 段 数 的 文 配 ,因而 
替代 选择 显得 特别 可 取 ; 其 它 类 型 的 内 部 排序 由 于 存储 大 小 的 限制 ,将 产生 大 约 两 
倍 之 多 的 初始 路 段 。 
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图 65 横断 面 , 示 出 当 这 个 系统 处 于 它 的 “稳定 状态 ” 
时 机 好 前 雪 的 高 度 变 化 


现在 让 我 们 详细 考虑 由 替代 选择 建立 初始 路 段 的 过 程 。 下 列 算法 是 由 John R. 
Walters ,James Painter 及 Martin Zalk 给 出 的 ,他 们 在 1958 年 把 它 用 于 Philco2000 的 
合并 路 段 程 序 中 。 它 加 入 了 一 个 很 好 的 方法 ,通过 相当 简单 和 一 致 的 逻辑 来 建立 选 
择 树 的 初 态 ,并 区 分 了 属于 不 同 路 段 的 记录 ,以 及 清理 最 后 一 个 路 段 ( 由 替代 选择 产 
生 的 最 后 路 段 的 适当 处 理 , 是 带 点 客 门 的 ,对 于 程序 员 说 来 它 势必 是 一 个 令 人 困惑 
的 难点 )。 基 本 的 思想 是 把 每 个 键 码 都 当 作 一 个 对 偶 (S,K), 其 中 K 是 原来 的 键 
码 , 而 S 是 这 个 记录 所 属 路 段 的 编号 , 当 这 样 扩 展 的 键 码 按 字典 次 序 排列 ,并 以 S 
作 主 键 码 ,以 K 作 辅 键 码 时 ,我 们 就 得 到 由 苦 代 选择 产生 的 输出 序列 。 

以 下 的 算法 使 用 了 包含 已 个 节点 的 一 个 数据 结构 来 表示 选择 树 ; 假 定 第 ; (0 三 
7 之 PP) 个 节点 了 [jj] 包含 从 LOC(X[j])= Lo+ ci 开始 的 c 个 字 , 它 既 表 示 图 63 中 的 
内 部 节点 号 j, 又 表示 外 部 节点 号 P+ jj。 在 每 个 节点 中 有 若干 命名 了 的 字段 : 

KEY = 存储 在 这 个 外 部 节点 中 的 键 码 ; 

RECORD = 存储 在 这 个 外 部 节点 中 的 记录 (包括 KEY 作为 一 个 子 字段 ) ; 

LOSER= 指向 存储 在 这 个 内 部 节点 中 的 “失利 者 "的 指针 

RN 二 由 LOSER 指出 的 记录 路 段 号 ; 

PE= 指 向 这 株 树 中 在 这 个 外 部 节点 上 方 的 内 部 节点 的 指针 

PI= 指向 这 株 树 中 在 这 个 内 部 节点 上 方 的 内 部 节点 的 指针 。 

例如 , 当 P=12 时 ,图 63 的 内 部 节点 号 5 和 外 部 节点 号 17 都 将 通过 字段 KEY 
二 170,LOSER= Lo+9c( 外 部 节点 号 21 的 地 址 ),PE= Lo+8c,PI= Lo+2c 在 XL5] 
中 表示 出 来 。 

字段 PE 和 PI 有 常数 值 , 所 以 它们 不 必 明 显 地 出 现 于 存储 器 中 ;然而 ,外 部 排序 
的 初始 阶段 ,有 时 跟 不 上 输入 /输出 设备 的 速度 , 故 通常 值得 把 这 些 多 余 的 值 作 为 数 
据 存 起 来 ,而 不 是 每 次 重新 计算 它们 。 


算法 R( 痊 代 选 择 ) ”这 个 算法 顺序 地 从 一 个 输入 文件 读 入 记录 ,并 把 它们 顺序 
地 写 在 一 个 输出 文件 上 ,产生 RMAX 个 名 ， 除 最 后 的 路 段 外 ,每 个 路 段 的 长 度 均 大 
于 或 等 于 P。 共 有 P 之 2 个 节点 XL[0],…,XXLP-1j, 每 个 节点 所 含 的 字段 如 上 所 
述 。 
R1.[ 初 始 化 ] 置 RMAX<0,RC<-0,LASTKEY<-c00,Q<-LOC(XX[0]), 以 及 RQ 一 0 
(RC 为 当前 路 段 的 编号 ,而 LASTKEY 为 最 后 输出 记录 的 键 码 。LASTKEY 的 初 
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值 应 当 大 于 任何 可 能 的 键 码 ;参见 习题 8)。 对 于 任何 0 二 j<P, 当 =L0C 
(XLj]) 时 , 置 X[j] 的 初始 内 容 如 下 : 
LOSER(J) <— J; RN(J) < 0; 

PE(J) <— LOC(X[L(P + 7)/2))); PI(J) < LOC( XL| /21]) 
(LOSER(J) 和 RN(J) 的 赋值 都 是 人 为 的 办 法 ,为 的 是 通过 考虑 一 个 虚构 的 编 
号 为 0 的 路 段 来 建立 树 的 初 态 。 该 路 段 决 不 会 输出 ,这 只 是 一 个 技巧 ,见习 
题 10。) 






R5. 准 备 更 新 


T= 叶 


| 。 | R6. 设 置 新 的 失利 者 










图 66 用 蔡 代 选择 作 初 始 路 段 


R2.[ 路 段 结 束 ?] 如 果 RQO=RC, 则 继续 转 到 步骤 R3。( 否 则 RQ= RC+1, 此 时 我 
们 刚刚 完成 编号 为 RC 的 路 段 ;一 个 合并 型 式 所 要 求 的 对 于 排序 的 随后 扫描 
的 任何 特殊 动作 将 在 这 时 完成 )。 如 果 RO>RMRAX , 则 停止 ,否则 置 RC<-RQ。 

R3.[ 输 出 树 顶 ] (现在 Q 指向“ 冠军” ,而 RQ 是 它 的 路 段 号 ) 如 果 RQ 关 0, 则 输出 
RECORD(0) ,并 置 LASTKEY<-KEY(Q)。 

.[ 输 入 新 记录 ] 如 果 输 入 文件 穷尽 了 , 则 置 RQ<-RMAX+ 1 且 继 续 转 到 步骤 
R5。 否 则 置 RECORD(Q) 为 输入 文件 的 下 个 记录 。 如 果 KEY(Q) < 之 LASTKEY( 于 
是 这 个 新 记录 不 属于 当前 的 路 段 ) , 则 置 RQ<RQ+1, 然 后 如 果 RQ>RMRAX , 则 
置 RMAX< 一 RO。 

.| 准备 更 新 ] (现在 8 指向 一 个 新 记录 ,其 路 段 号 是 RQ) 置 T<PE(Q)(T 是 一 
个 指针 变量 , 它 将 沿 树 上 移 )。 

R6.[ 置 新 的 失利 者 ] 如 果 RN(T)<<RQ 或 者 如 果 RN(T) = RQ, 并 且 KEY (LOSER 
(T))<KEY(Q) , 则 对 换 LOSER(T)<>Q,RNCT)<>RQ( 变 量 Q 和 RQ 记 住 当前 的 胜 
利 者 和 它 的 路 段 号 )。 

R7.[ 上 移 ] 如 果 T=LOC(X[1]) 则 返回 到 R2 ,否则 置 T<-BPI(T) 并 返回 R6。 
| 


算法 R 中 的 输入 和 输出 一 次 只 涉及 一 个 记录 ,然而 实际 上 最 好 是 读 和 写 相 当 大 
块 的 记录 。 因 此 ,存储 器 中 有 某 些 输入 和 输出 缓冲 区 ,它们 实际 上 在 幕后 降低 已 的 
大 小 ,我 们 在 5.4.6 小 节 说 明 这 一 点 。 


R 


~ 


R 


Un 
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“ 路段 的 延迟 重新 组 成 ”使 用 我 们 称 之 为 自由 度 的 概念 ,R.J. Dinsmore[CACM 
8(1965) ,48j 提出 了 改进 替代 选择 的 一 个 非常 有 趣 的 方法 。 如 同 我 们 已 经 看 到 的 ， 
磁带 上 在 一 个 路 段 之 内 的 每 组 记录 是 按 非 减 次 序 排 好 的 ,于 是 它 的 头 一 个 元 素 是 最 
低 的 而 最 后 元 素 是 最 高 的 。 在 通常 的 替代 选择 过 程 中 ,一 个 路 段 内 每 组 的 最 低 元 素 
决 不 小 于 该 路 段 中 前 面 那 组 的 最 高 元 素 ; 这 是 “1 个 自由 度 ”。Dinsmore 提议 把 这 条 
件 放松 成 为 “m 个 自由 度 ” ,其 中 每 组 的 最 小 元 素 可 以 小 于 前 一 组 的 最 高 元 素 ,只 要 
写 不 小 于 本 名 起 前 的 m 个 不 局 的 组 中 的 最 高 元 素 就 行 。 如 同 以 前 一 样 , 在 单个 组 
内 的 记录 是 有 序 的 ,但 相 邻 的 组 不 必 是 有 序 的 。 

例如 ,假设 每 组 恰 有 两 个 记录 ;下 列 组 序列 是 具有 3 个 自由 度 的 一 个 路 段 

108 50106 90117 27142 671|151 89| (1) 
该 路 段 将 要 包含 的 下 一 个 组 ,必须 以 一 个 不 小 于 {150,90,27,67,891 的 第 3 个 最 大 元 
素 ( 即 67) 的 元 素 开 始 。 如 果 仅 有 两 个 自由 度 的 话 , 序 列 (1) 将 不 是 一 个 路 段 , 因 为 
17 既 小 于 50, 也 小 于 90。 

具有 m 个 目 由 度 的 一 个 路 段 , 当 它 在 排序 的 下 一 个 阶段 被 读 人 时 ,可 以 被 “ 重 
新 组 成 ”, 使 得 对 于 所 有 实用 的 目的 说 来 , 它 都 是 通常 意义 下 的 一 个 路 段 。 我 们 从 把 
m 个 组 读 到 m 个 缓冲 区 开始 ,对 它们 进行 mx 路 合并 ; 当 穷 尽 了 一 个 缓冲 区 时 ,以 第 
7 十 1 个 组 代替 它 ,等 等 。 用 这 种 办 法 ,我 们 可 以 重新 把 这 一 路 段 恢复 成 一 单个 序 
列 ,因为 每 个 新 近 读 的 头 一 个 字 都 必须 大 于 或 等 于 刚 穷 尽 的 组 的 最 后 一 个 字 ( 免 得 
它 小 于 在 它 之 前 的 mx 个 不 同 组 中 的 最 高 元 素 )。 这 个 重新 组 成 路 段 的 方法 ,实际 上 
驶 像 对 于 所 有 的 输入 组 都 使 用 一 台 磁 带 机 的 mx 路 合并 一 样 ! 重新 组 成 过 程 的 工作 
方式 像 一 个 协同 子 程序 , 它 被 调用 来 一 次 发 送 路 段 的 一 个 记录 。 我 们 可 以 对 从 不 同 
的 磁带 机 上 来 的 具有 不 同 自由 度 的 路 段 加 以 重新 组 成 ,并 且 合 并 得 到 的 路 段 , 所 有 
这 些 都 在 同一 个 时 间 进 行 , 这 种 方法 实际 上 就 像 本 节 开 始 所 说 明 的 ,四 路 合并 可 以 
想像 为 一 次 进行 若干 个 两 路 合并 一 样 。 

对 这 个 有 独创 性 的 思想 难以 进行 精确 分 析 ,但 T.O. Espelid 已 经 说 明了 如 何 来 
扩充 扫 雪 机 的 类 似 性 ,以 得 到 对 于 这 个 特性 的 一 个 近似 公式 [LBIT 16 (1976) ,133 一 
142j。 根 据 这 个 同 经 验 测试 很 一 致 的 公式 , 当 5 是 块 大 小 且 mw 宇 2 时 ,路 段 长 度 将 
大 约 是 
2P+(m 一 1.5) 部 于 一 6 
这 样 一 种 增加 尚 不 足以 证 明 由 此 而 增加 的 复杂 性 是 合理 的 ; 另 一 方面 ,在 第 二 个 排 
序 阶 段 ,如 果 有 足够 的 地 方 可 安排 相当 大 量 的 缓冲 区 , 它 可 能 是 有 利 的 。 


“自然 的 选择 W.D. Frazer 和 C.K.Wong( 黄 泽 权 )[CACM 15 (1972) ,910 一 
913j 训 析 了 增加 由 替代 选择 产生 的 路 段 长 度 的 另 一 方式 。 他 们 的 想法 是 像 算 法 R 
那样 做 ,但 当 一 个 新 记录 的 键 码 小 于 LASTKEY 时 ,这 个 新 的 记录 被 输出 到 一 个 外 部 
库 中 ,并 读 人 另 一 个 新 的 记录 。 这 个 过 程 延 续 到 这 个 库 被 一 定数 量 的 记录 P 充满 
为 止 ; 这 时 ,当前 路 段 的 剩 下 部 分 从 该 树 中 输出 ,而 存 于 库 中 的 项 目 即 用 作 下 一 路 段 
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的 输入 。 

库 的 使 用 趋向 于 产生 比 替 代 选 择 更 长 的 路 段 ,因为 它 避 免 了 属于 下 个 串 的 “ 死 
的 ”记录 ,不 让 它们 来 充斥 该 树 ;但 它 需 要 额外 的 时 间 以 从 库 进 行 输入 和 输出 到 库 
中 。 当 P > 已 时 , 某 些 记录 有 可 能 两 次 人 库 , 但 当 P 科 已 时 ,这 将 绝 不 可 能 发 生 。 

Frazer 和 Wong 对 他 们 的 方法 进行 了 广泛 的 实验 测试 ,得 知 当 已 相当 大 (比如 
说 P 宇 32) 和 和 P = PP 时 ,随机 数据 的 平均 路 段 长 度 由 eP 给 出 ,其 中 e=2.718 是 目 
然 对 数 底 。 由 于 这 个 现象 ,以 及 由 于 这 个 方法 是 对 于 简单 的 蔡 代 选择 的 一 种 渐进 改 
良 , 自然 地 使 他 们 把 他 们 的 方法 称 为 自然 的 选择 。 

通过 再 次 考虑 图 64 的 扫 雪 机 并 且 应 用 初等 微 积 分 ,可 以 证 明 路 段 长 度 的 “ 自 
然 " 定 律 。 设 L 是 道路 的 长 度 ,并 设 x (i) 是 在 时 间 4(0 委 :和 了 ) 时 扫 雪 机 的 位 置 。 
当 雪 暂时 停止 而 扫 雪 机 回 到 它 开 始 的 位 置 (清除 了 在 它 的 通路 上 剩 下 的 PP 个 单位 
的 雪 ) 时 ,假定 在 时 间 工时 库 是 满 的 。 除 了 "平衡 条 件 " 不 同 外 ,这 个 情况 和 以 前 是 
一 样 的 ;代替 在 所 有 时 刻 道 路 上 有 P 个 单位 的 雪 ,我 们 有 P 个 单位 的 雪 在 扫 雪 机 之 
前 ,而 且 库 (在 扫 雪 机 之 后 ) 增 加 成 P = PP 个 单位 。 如 果 有 h(x,z)dz 个 记录 被 输出 ， 
h(xz,i) 是 在 时 间 二 时 的 雪 的 高 度 , 且 位 置 x = x(t)( 这 里 采用 适当 的 单位 ), 则 在 一 
个 时 间 间 隔 di 内 扫 雪 机 前 进 dz。 

因此 ,对 所 有 zz,h(z,1)=h(x,0)+ Ki, 其 中 KK 是 落雪 的 速度 。 由 于 在 存储 
器 中 的 记录 数 保 持 不 变 , 所 以 h(x,i) 也 就 是 在 扫 雪 机 之 前 输入 的 记录 数 , 即 
Kdi(L 一 xz)( 见 图 67)。 于 是 


dz K(L—z) 
dt h(xz,i) (2) 






图 67 等 量 的 雪 被 输入 和 输出 ; 扫 雪 机 在 时 间 di 内 移动 dz 
幸而 ,结果 证 明 每 当 x= zx(i1) 和 0 二 1 过 人 醋 时 ,h(xz,i) 是 等 于 KT 的 常数 ,因为 在 扫 
雪 机 通过 点 z(z) 后 , 雪 稳 定 地 降落 到 该 位 置 达 个 -上 个 时 间 单 位 ,在 它 返 回 前 还 要 
加 上 上 个 时 间 单 位 。 换 句 话说 ,在 已 达到 稳定 状态 的 前 提 下 ,每 个 旅程 都 是 一 样 的 ， 
扫 雪 机 看 到 在 它 的 旅程 中 所 有 的 雪 都 处 于 同样 的 高 度 , 因 此 清扫 的 雪 的 总 量 ( 路 段 
长 度 ) 是 LKT; 而 存储 器 中 雪 的 数量 是 在 时 间 工 后 清除 的 数量 , 即 KT(L 一 
Zz(T))。 使 得 z(0)=0 的 (2) 的 解 为 
zx(1)= L(1 -e ‘7) (3) 

因此 P= LKTe “= (路 段 长 度 )/e; 而 这 就 是 我 们 所 要 证 明 的 。 

习题 21 一 23 说 明 ,这 个 分 析 可 以 推广 到 一 般 的 PP 的 情况 ;例如 , 当 P’=2P 时， 
， 245 ， 


第 5 章 排序 





平均 路 段 长 度 得 知 是 el(e-6)P, 其 中 0= (e- Ve@-4)/2, 这 大 概 是 还 没有 人 能 立 
即 猜 出 的 结果 ; 表 2 说 明了 路 段 长 度 对 于 库 大 小 的 依赖 性 ;通过 查 这 张 表 ,在 一 个 给 
定 的 计算 机 环境 中 自然 选择 的 有 用 性 即 可 估计 出 来 。 对 于 <P 的 库 大 小 的 表 项 ,使 
用 习题 27 中 一 个 改进 的 技术 。 
如 同 T.C. Ting( 丁 子 锦 ) 和 YY.W.Wang( 王 亚 威 ) 在 Comp.J. 20 (1977) ,298 一 
301 中 所 讨论 的 那样 ,延迟 路 段 重 新 组 成 和 自然 选择 的 思想 可 以 联合 在 一 起 。 
表 2 自然 选择 产生 的 路 段 长 度 





0.10000P 2.15780P 0.3207]1 0.00000P 2.00000P 0.00000 
0.S0000P 2.54658P 0.69952 0.43428P 2.50000P 0.65348 
1.00000P 2.71828P 1.00000 1.30432P 3.00000P 1.15881 
2.00000P 3.53487P 1.43867 1.95014P 3.50000P 1.42106 
3.00000P 4.16220P 1.74773 2.72294P 4.00000P 1.66862 
4.00000P 4.69446P 2.01212 4.63853P 5.00000P 2.16714 
S$.00000P 3.16369P 2.24938 21.72222P 10.00000P 4.66667 
10.00000P 7.00877P 3.17122 $5.29143P 5.29143P 2.31329 











| 注 :在 习题 22 或 习题 27( 当 =0) 中 定义 了 量 有 +9 | 


“替代 选择 的 分 析 ”现在 让 我 们 转 回 到 没有 辅助 库 的 蔡 代 选择 的 情况 。 扫 雪 机 
的 类 比 , 给 了 我 们 在 稳定 状态 下 由 替代 选择 所 得 到 的 平均 路 段 长 度 的 一 个 相当 好 的 
估计 ,但 是 通过 应 用 我 们 在 5.1.3 小 节 中 做 的 关于 排列 中 路 段 的 研究 的 事实 ,有 可 
能 获得 算法 R 的 许多 更 精确 的 信息 。 为 此 目的 ,假定 输入 文件 是 0 和 1 之 间 的 独立 
随机 实数 的 一 个 任意 长 的 序列 ,是 更 为 方便 的 。 

设 


lt, 1 l 
BgPp (ZI, Zs" , Zh) 一 >) ap(li,L2, ,Ly) Zn ZH 


是 由 在 这 样 一 个 文件 上 的 P 路 替代 选择 所 产生 的 路 段 长度 的 生成 函数 ,其 中 ap(71， 

1，，… ,li) 是 第 一 个 路 段 长 度 为 11, 第 二 个 长 度 为 1,,…, 第 个 长 度 为 4 的 概率 。 

下 列 “ 独 立 性 定理 ”是 一 个 基本 的 定理 ,因为 它 把 这 个 分 析 归 结 为 P=1 的 情况 : 
定理 K gp(Z1y Ts EL) = gi Zi, 22 ,Zp) 

证 明 设 输入 键 码 为 X| ,XX; ,XX3,"…。 按 照 它们 在 这 株 树 中 所 处 的 外 部 节 扣 的 
位 置 , 算 法 R 把 它们 划分 为 P 个 子 序列 ;包含 X, 的 子 序列 由 值 Xi ,…,X, 确定 。 
因此 每 一 个 子 序列 是 0 和 1 间 独 立 的 随机 数 的 一 个 独立 序列 。 进 而 , 蔡 代 选择 的 输 
出 恰 是 对 这 些 子 序列 进行 一 次 P 路 合并 所 应 得 到 的 ;一 个 元 素 属 于 一 个 子 序列 的 
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第 ; 个 路 段 的 充 要 条 件 是 , 它 属 于 由 替代 选择 产生 的 第 ) 个 路 段 ( 因 为 在 步骤 R4 
中 ,LASTKEY 和 KEY(Q) 属 于 同一 个 子 序列 )。 

换 句 话说 ,我 们 也 完全 可 以 假定 ,算法 R 正 被 应 用 于 P 个 独立 的 随机 输入 文 
件 ,而 且 步 骤 R4 从 对 应 于 外 部 节点 Q 的 文件 读 下 一 个 记录 ;在 这 个 意义 下 ,该 算法 
等 价 于 一 个 P 路 合并 ,并 以 “下 坡 ” 来 标志 诸 路 段 的 结束 。 

于 是 , 当 且 仪 当 诸 子 序列 有 长 度 分 别 为 (1 ,…, Wis),…, (lpi，…, Lp) 的 路 段 


时 ,输出 中 有 长 度 为 (11，,… ,1i) 的 路 段 。 其 中 与 是 满足 >) _，_,J; = 4 的 某 些 非 负 
整数 ,1 之 j 三 有 。 由 此 得 出 
apP(11 ,ls) = >») CCO lip)"a( Lp, , Lps) 


而 这 等 价 于 所 求 的 结果 。 | 


我 们 已 经 在 5.1.3 小 节 讨 论 了 当 P=1 时 ,第 个 路 段 的 平均 长 度 L, ,在 表 
5.1.3-2 中 列 出 了 这 些 值 。 定 理 K 蕴含 对 于 一 般 的 P, 第 个 路 段 的 平均 长 度 是 当 
P=1 时 的 平均 长 度 的 P 售 , 即 LiP; 而 且 方 差 也 是 P 倍 , 所 以 路 段 长 度 的 标准 差 同 


VP 成 比例 。 这 些 结果 是 1958 年 左右 由 B.J. Gassner 首先 导出 的 。 

于 是 ,对 于 随机 数据 ,由 算法 R 产生 的 头 一 个 路 段 大 约 包 含 (e- 1)P 守 1.718P 
个 记录 。 第 二 个 路 段 ,大 约 是 (e@ -2e) Ps1.9$2P 个 记录 。 第 三 个 ,大 约 是 
1.996P ;而 随后 的 路 段 , 将 非常 接近 于 包含 2P 个 记录 ,直到 我 们 得 到 最 后 两 个 路 段 
(见习 题 14) 为 止 。 这 些 路 段 长 度 的 大 多 数 标准 差 都 近似 于 Vv (4e-10)P 守 0.934 
VP[CACM 6 (1963) ,68$ 一 687]。 进 而 ,习题 5.1.3-10 说 明 ,前 大 个 路 段 的 总 长 度 
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将 相当 接近 于 | 24 -村 |jP, 并 有 | (4 + 避 jP] “的 标准 差 。 在 习题 5.1.3-9 和 11 
中 导出 了 生成 函数 gj(xz,z,…,z) 和 和 g1(1,.…,1,z)。 

上 边 的 分 析 已 经 假定 输入 文件 是 无 限 长 的 ,但 定理 kK 的 证 明 表 明 , 在 至 少 包含 
二 二 下 十 己 个 元 素 的 任何 随机 输入 序列 中 ,都 将 得 到 相同 的 概率 a (171,… ,1 )。 
所 以 上 述 结果 在 小 的 标准 差 的 观点 下 ,对 于 比如 说 大 小 为 N > (2& +1)P 的 文件 是 
可 应 用 的 。 

我 们 将 看 到 某 些 应 用 ,其 中 合并 型 式 要 求 某 些 路 段 是 递增 的 ,而 某 些 是 递减 
的 ,由 于 在 一 个 递增 的 路 段 结 束 时 ,在 存储 器 中 累积 的 剩余 往往 包含 平均 比 随 机 数 
更 小 些 的 数 , 故 顺 序 方向 的 改变 减少 了 路 段 的 平均 长 度 。 例 如 ,考虑 一 台 扫 雪 机 ,在 
七 每 次 到 达 一 条 直路 的 终点 时 必须 跑 一 个 U 形 转弯 ; 它 将 非常 快速 地 通过 刚才 扫 
过 的 区 域 。 当 站 倒 方 向 时 ,随机 数据 的 路 段 长 度 将 在 1.5P 和 2P 之 间 变 动 (见习 
题 24)。 
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习 驯 


1. [10] 在 本 节 开 头 的 四 路 合并 例子 中 ,步骤 4 是 什么 ? 

2. [12] 如 果 以 612 代替 键 码 061, 对 于 图 63 的 树 将 做 什么 变动 ? 

3. [16] (上 .F,.Moore) 当 应 用 四 路 替代 选择 于 下 列 一 串 单 词 时 ,产生 的 输出 是 什么 ? 

fourscore and seven years ago our fathers brought forth on this continent a new nation conceived in 
liberty and dedicatd to the proposition that all men are created equal. 

使 用 通常 的 字母 顺序 ,把 每 个 词 处 理 作 一 个 键 码 。 

4. [16] 把 四 路 自然 选择 应 用 于 习题 3 的 句子 ,使 用 容量 为 4 的 一 个 库 。 

5. [00] 真 或 假 : 仅 当 已 是 2 的 乘 方 时 或 者 是 两 个 2 的 乘 方 之 和 时 ,使 用 一 个 树 的 答 代 选择 
才 有 效 。 

6. [15] 算法 R 指明 ,必须 P 宇 2; 应 如 何 稍微 修 改 这 个 算法 ,以 使 它 对 于 所 有 已 >1 成 立 ? 

7. [17] 当 没 有 任何 输入 时 ,算法 R 做 什么 ? 

8. [20] 算法 R 利 用 了 一 个 人 为 的 键 码 “co ", 它 必须 大 于 任何 可 能 的 键 码 。 证 明 : 要 是 真有 
一 个 键 码 等 于 co 的 话 ,这 个 算法 可 能 失误 ,并 说 明 在 真正 的 se 的 实现 并 不 方便 的 情况 下 ,如 何 来 
修改 这 个 算法 ? 

9. [23] 你 将 怎样 修改 算法 R, 使 得 某 些 指定 的 路 段 (依赖 于 RC) 按 递增 次 序 输出 ,而 其 它 的 

按 递减 次 序 输 出 ? 

10. [26 |] 在 步骤 R1 中 ,LOSER 指针 的 初 态 通 常 不 对 应 于 任何 实际 的 锦标 赛 ,因为 外 部 节点 P 
+j 不 会 处 于 内 部 节点 j 之 下 的 子 树 中 ,说 明 为 什么 算法 R 仍然 有 效 [ 提 示 : 如 果 在 步骤 Rl 中， 
|LOSER(LOC( XX[0])),… ,LOSER(LOC(X[P 一 1]))| 被 置 成 {iLOC(XL0]),…,LOC(X[P 一 1])1 的 任何 
一 个 排列 , 则 这 个 和 葛 法 是 否 有 效 ]。 


11. [M25 ] 真 或 假 :假定 输入 是 随机 的 ,在 步骤 R4 中 KEY(Q) < LASTKEY 的 概率 近似 于 了 。 


12. [ M46 ] 详细 分 析 算 法 R 的 每 一 部 分 被 执行 的 次 数 ,例如 ,在 步骤 R6 中 所 做 的 交换 有 多 
频繁 ? 
13. [13] 为 什么 由 替代 选择 产生 的 第 二 个 路 段 通常 都 大 于 第 一 个 路 段 ? 
>14. [HM25] 用 扫 雪 机 的 类 比 来 估计 ,由 输入 数据 的 一 个 长 序列 通过 兰 代 选择 所 产生 的 最 后 
两 个 路 段 的 平均 长 度 。 
15. [20] 真 或 假 :由 替代 选择 产生 的 最 后 路 段 决 不 包含 多 于 P 个 记录 ,请 讨论 你 的 答案 。 
16. [M26 ] 试 求 一 个 文件 RR,… Rw 将 由 己 路 替代 选择 在 一 次 扫描 中 完全 排序 的 一 个 “ 简 
单 的 ”必要 和 充分 条 件 。 当 输入 是 11,2,…,N| 的 随机 排列 时 ,作为 P 和 NN 的 函数 发 生 这 种 情况 
的 概率 是 什么 ? 
17. [20] 当 输 入 键 码 处 于 递减 次 序 下 , 即 KK 之 K, 之 … 之 Kw 时 ,由 算法 R 产生 的 输出 是 什 
么 ? 
18. [22] 如 果 算 法 R 再 次 应 用 于 由 算法 R 产生 的 一 个 输出 文件 , 则 将 发 生 什 么 情况 ? 
19. [HM22 ] 用 扫 雪 机 的 类 比 来 证 明 ,由 替代 选择 产生 的 第 一 个 路 段 的 长 度 近 似 为 (e 一 1)P 
个 记录 。 
20. [HM24] 当 已 =P 时 ,由 自然 选择 产生 的 第 一 个 路 段 约 为 多 长 ? 
>》21. [HM23 ] 试 确定 当 P <P 时 ,由 自然 选择 产生 的 路 段 的 近似 长 度 。 
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22. [HM40 ] 这 一 习题 的 目的 是 确定 当 P >P 时 ,在 自然 选择 中 得 到 的 平均 路 段 长 度 。 今 < 
=&+O0 是 一 个 >1 的 实数 ,其 中 上 =LxejJ 和 6= kxmod 1, 并 考 虚 函数 F(x)= FF(9), 其 中 F,(9) 是 由 
生成 嚼 数 


Dj Fi(0)z = e-%/(1 — zel-*) 


大 之 0 
定义 的 多 项 式 , 于 是 Fo(0) =1,FI(0)=e-0,F(0) = 已 -e-e0+ 方 02 ,等 等 


假设 一 台 扫 雪 机 在 时 间 0 启动 ,开始 模拟 自然 选择 的 过 程 ,并 假设 在 T 个 时 间 单 位 之 后 , 恰 
有 P 了 个 雪花 已 经 落 在 它 后 面 。 这 时 ,第 二 台 扫 雪 机 开始 相同 的 旅程 , 它 在 时 间 :+ 全 时 所 占 的 位 
置 就 是 第 一 台 扫 雪 机 在 时 间 上 时 所 占 的 位 置 。 最 后 ,在 时 间 xT, 恰 有 P' 个 雪花 落 在 第 一 台 扫 雪 
机 之 后 ; 它 在 一 瞬间 把 剩 下 一 段 路 全 扫 完 , 随 之 即 告 消 失 。 

利用 这 一 模型 来 表示 自然 选择 的 过 程 ,说 明 当 


P'/P=A+l+e(kcF(c)- > F(x - ))) 


时 ,得 到 一 个 长 度 等 于 elF(k)P 的 路 段 。 

23. | HM35 ] 上 题 分 析 了 当 记 录 按 同一 次 序 ( 即 先进 先 出 ) 写 人 和 读 出 库 时 的 自然 选择 。 如 
宁 以 完全 随机 的 次 序 读 和 人 上 一 路 段 存 进 库 中 的 内 容 , 就 像 库 中 的 记录 在 两 个 路 段 之 间 已 整个 地 
重 “ 洗 ”了 一 样 , 试 求 应 得 到 的 近似 路 段 长 度 。 

24. 【HM39 ] 本 题 的 目的 是 分 析 因 偶然 改变 蔡 代 选择 中 路 段 的 方向 所 引起 的 效果 。 

a) 设 gp(zl,zz， 54) 是 如 同 在 定理 K 中 那样 定义 的 一 个 生成 函数 ,但 同时 ,个 路 段 中 的 
每 个 都 已 被 确定 是 递增 还 是 递减 的 。 例 如 ,我 们 可 以 说 所 有 奇数 编号 的 路 段 是 递增 的 ,所 有 偶数 
编号 的 路 段 是 递减 的 。 试 说 明 对 于 这 种 类 型 的 2* 个 生成 函数 的 每 一 个 ,定理 K 都 成 立 。 

b) 作 为 a) 的 推论 ,我 们 可 以 假设 P=1。 我 们 也 可 以 假定 ,输入 是 0 和 1 之 间 的 独立 随机 数 的 
一 个 一 致 分 布 序列 。 设 
|e -ee 7” 如 果 z 达 yy 
| el 如 果 z > y 


车 给 定 某 个 递增 路 段 以 z 开始 的 概率 为 /(z)dz , 试 证 明 (| ce(z,y)7(z)dz ]dy 为 下 一 个 路 和 


以 y 开始 的 概率 [提示 : 当 xz 和 yy 已 知 时 ,对 于 每 个 之 0, 考 虑 xz 过 久 | 声 … 过 X, > yy 的 概率 ]。 
Cc) 考虑 以 概率 p 改变 方向 的 路 段 ; 换 旬 话 说 ,在 第 一 个 路 段 后 每 个 路 段 的 方向 ,有 q=(1-— 
思 ) 的 机 会 被 随机 地 选择 成 和 以 前 的 路 段 一 样 , 而 选择 相反 方向 的 机 会 是 p( 于 是 当 p=0 时 ,所 有 


的 路 段 都 有 相同 的 方向 ; 当 p=1 时 ,这 些 路 段 都 改变 方向 ;而 当 户 = 并 时 ,这 些 路 段 是 独立 地 随 
机 的 )。 设 
1 1 
f(z) = Li) = p) alz yfll zde + qf a(zoy) f(z)dz 
0 0 


说 明 当 第 (n -~ 1) 个 路 段 递增 时 第 n 个 路 段 以 z 开始 的 概率 为 f, (xz)dzx, 当 第 (n -1) 个 路 段 递减 
时 第 ”个 路 段 以 z 开始 的 概率 为 请 (1- 工 )dxz。 
d) 求 对 于 “ 稳 态 ”方程 


1 1 1 
f(y) = | a(z,y)f(l- zr)drt+ | a(z,3) f(z)dz,| f(x)dr = 1 
0 0 0 
的 一 个 解 [提示 :证 明 了 (z) 是 独立 于 x 的 ]。 


az,y) = 
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e) 证 明 c) 中 的 序列 f(z) 相 当 迅 速 地 收敛 到 d) 中 的 函数 。 

f) 证 明 ,以 二 开始 的 一 个 递增 路 段 的 平均 长 度 为 el =。 

g) 最 后 ,把 上 述 这 些 结果 归结 到 一 起 ,以 证 明 下 列 定理 :在 替代 选择 中 ,如 时 过 续 一 系列 路 段 
的 方向 是 独立 地 以 地 训 户 逆转 的 ,出 平均 路 段 长 度 艳 于 (6/(3+ p))P( 关 于 此 定理 的 p=1 的 情 
况 ,首先 是 由 Knuth 导出 的 [CACM 6(1963) ,685~688];p= 三 的 情况 则 首先 由 A.G.Konheim 于 


1970 年 加 以 证 明 )。 
25. [HM40 ] 考虑 下 列 过 程 
N1. 读 一 个 记录 到 容量 仪 为 一 个 字 的 “ 库 ” 中 ,然后 读 另 一 个 记录 R 并 令 K 是 它 的 键 码 。 
N2. 输 出 这 个 库 , 置 LASTKEY 为 它 的 键 码 , 并 置 这 个 库 为 空 。 
N3. 如 果 K<LASTKEY, 则 输出 R 并 置 LASTKEY<-K, 然 后 转 到 N5。 
N4. 如果 库 非 空 , 则 转 到 N2; 否 则 把 R 送 入 库 中 。 
N5. 读 和 人 新 记录 R, 并 设 K 是 它 的 键 码 。 转 到 N3。 | 


这 实际 上 等 价 于 P=1 和 P=1 或 2 的 自然 选择 (取决 于 你 是 选 定 在 库 满 的 时 刻 来 弄 空 它 ， 
还 是 在 它 大 约 溢出 了 的 时 刻 弄 空 它 ) ,惟一 的 区 别 是 它 产生 递减 的 路 段 ,而 且 它 决 不 停止 。 对 于 本 
题 的 目的 说 来 ,后边 的 异常 情况 是 方便 的 和 无 害 的 假定 。 

如 同 在 习题 24 中 那样 进行 , 设 广 (z,y)dydz 是 恰 在 第 ”次 执行 步骤 N2 之 后 (LASTKEY 和 
的 值 分 别 是 x 和 y) 的 概率 。 证 明 存在 一 个 变量 的 函数 g(x), 使 得 当 z<y 时 f(x,y)= g(x)， 
而 当 z>y 时 广 (z,y)=8gr(z)-e (gr(z)-Sgn(y))。 这 个 函数 g,(z) 由 关系 式 gl(z)= 1 


工 I 1 
gu (1) -| erg,(u) da + | avs 1 | du((ee — Dg (nu) + gv)) + 


1 1 
z| do| du((e”— 1)g(u) + g,(v)) 
来 定义 。 进 一 步 说 明 , 第 ”个 路 段 的 预期 长 度 为 
1 工 1 
| az dy(a, (ze 一 1)+ eg(y)) (2 一 y+ | dz — XT)pg, (x)e” 


[注意 :这 些 方程 的 “稳定 状态 ”的 解 显得 非常 复杂 ; 它 的 数值 解 已 经 为 J. McKenna 得 到 ,他 说 明 这 
些 路 段 长 度 趋 于 2.61307209 的 极限 值 。 定 理 K 不 能 应 用 于 自然 选择 ,所 以 P=1 的 情况 对 其 它 
的 书 行 不 通 ]。 

26. [M33 |] 把 习题 25 中 的 算法 当 作 P =1 时 自然 选择 的 定义 ,对 任何 +r 宇 0, 求 当 P = > 时 
第 一 个 路 段 的 预期 长 度 如 下 

a) 证 明 第 一 个 路 段 长 度 为 n 的 概率 是 


Cat nl" /Grrr 


b) 通 过 规则 


-Eee-at[ 9)sv> 


定义 “相关 联 的 斯 特 林 数 “| 1 ,证 明 


"hl 
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c) 证 明 第 一 个 路 段 的 平均 长 度 因此 是 ce ->- 1, 其 中 
ee 


p27. [HM30] (W.Dobosiewicz) 当 对 于 P'< P 使 用 自然 选择 时 ,在 库 变 满 时 我 们 不 必 停 下 形 
成 一 个 路 段 ; 像 在 蔡 代 选择 中 一 样 ,我 们 可 以 把 不 属于 当前 路 段 的 记录 存 进 主 优先 队列 中 ,直到 
剩 下 当前 路 段 的 P 个 记录 为 止 。 于 是 我 们 可 以 把 它们 “ 喷 " 到 输出 中 并 以 库 的 内 容 来 代替 它们 。 

比 起 在 习题 21 中 分 析 过 的 较 简单 方法 ,这 个 方法 有 多 好 ? 

28. [25] 正文 中 仅仅 考虑 了 所 有 有 待 排序 的 记录 都 有 一 个 固定 大 小 的 情况 ,对 于 可 灾 蔷 的 
记录 ,替代 选择 应 如 何 做 才 好 ? 

29. 考虑 已 经 右 穿线 了 的 一 个 完全 二 又 树 的 2 个 节点 ,下 面 为 k=3 时 的 图 示 : 








( 同 2.3.1-(10) 做 比较 , 顶 上 的 节点 是 表 头 ,而 虚线 是 穿线 链接 。 在 本 习题 中 ,我 们 不 关心 排序 ,而 
是 像 在 图 63 中 一 样 , 当 在 节点 1 上 面 加 上 类 似 表 头 的 节点 0 时 ,关心 完全 二 叉 树 的 结构 )。 

说 明 怎 样 把 一 个 大 的 失利 者 树 的 2"*“ 个 内 部 节点 指定 到 2 个 宿主 节点 上 ,使 得 :(i) 每 个 窒 
主 节 点 恰 保 留 大 的 树 的 2” 个 节点 ;(ii) 大 树 中 相 邻 的 节点 或 者 被 指定 到 相同 的 宿主 节点 上 ,或 者 
被 指定 到 相 邻 的 (链接 的 ) 宿 主 节点 ;(iii) 在 大 的 树 中 没有 两 对 相 邻 节点 在 宿主 树 中 被 同一 个 链 所 
分 开 L 因 此 在 一 个 大 的 二 又 树 网 络 中 ,多 个 虚拟 处 理 器 可 以 被 映射 到 实际 的 处 理 器 上 而 不 会 造成 
通信 和 链接 中 的 过 度 拥 挤 ]。 

30. [29] 试 证 明 ,任何 满足 (D ,( 这 和 (ii) 的 24- 节 点 的 宿主 图 在 节点 之 间 必 然 有 至 少 2: + 2*-1! 
-1 工 条 边 (链接 )。 在 这 个 意义 下 ,如 果 n 宇 k 宇 1, 则 上 题 中 的 构造 是 最 优 的 。 


“5.4.2 多 阶段 合并 


现在 我 们 已 经 看 到 可 以 如 何 构 造 初 始 路 段 ,我们 将 考虑 各 种 型 式 , 这 些 型 式 可 
锌 用 来 把 这 些 路 段 分 布 到 磁带 上 ,并 把 它们 合并 在 一 起 直到 仅 剩 下 一 个 路 段 为 止 。 

从 假定 有 3 条 磁带 T1,T2 和 T3 可 资 利 用 开始 ;在 5.4 节 开 始 处 所 描述 的 “ 平 
衡 合 并 "技术 ,可 以 对 P=2 征 = 3 使 用 ,这 时 它 采 取 如 下 的 形式 . 

Bl1. 交替 地 在 Tl 磁带 和 T2 和 磁带 上 分 布 路 段 。 

B2. 把 Tl 和 T2 的 路 段 合 并 到 T3 上 ;然后 如 果 T3 仅 包含 一 个 路 段 时 便 停止 。 

B3. 把 T3 的 路 段 交 蔡 地 拷贝 到 TI 和 T2 上 ,然后 返回 到 B2。 | 


如 采 初 始 分 布 扫描 产生 S 个 路 段 , 则 第 一 次 合并 扫描 将 在 T3 上 产生 「S/2 1] 个 
路 段 , 第 二 次 合并 扫描 将 产生 [ S/4 1 个 ,等 等 。 于 是 ,如 果 说 17 过 S 志 32, 则 我 们 将 有 
1 趟 分 配 扫描 ,5 趟 合并 扫描 ,以 及 4 趟 拷贝 扫描 。 一 般 地 说 , 若 S>1, 对 于 所 有 数 
据 的 扫 摘 次 数 是 2 lgS ]。 
在 此 过 程 中 的 拷贝 扫描 是 不 需要 的 ,因为 它们 并 不 减少 路 段 数 。 如 果 我 们 使 用 
一 种 两 阶段 的 过 程 , 则 有 一 半 的 拷贝 可 以 避免 。 
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Al. 在 磁带 Tl 和 T2 上 交替 地 分 布 初始 路 段 。 

A2. 把 Tl 和 了 T2 上 的 路 段 合 并 到 T3 上 ;然后 如 果 T3 仅 包 含 一 个 路 段 ， 则 停止 。 
A3. 把 T3 上 一 半 的 路 段 拷 由 到 人 Tl 上 。 

A4. 把 Tl 和 T3 的 路 段 合 并 到 TT2 上 ;然后 如 果 T2 仅 含 一 个 路 段 , 则 停止 。 
A5. 把 T2 上 一 半 的 路 段 拷 贝 到 T1, 返 回 A2。 | 


对 数据 的 扫描 次 数 已 经 减少 到 TlgS 1+ 六 ,因为 步骤 A3 和 A5 仅仅 做 “ 半 次 
扫描 ”; 因 此 节省 了 大 约 25% 的 时 间 。 

如 果 我 们 从 Tl1 上 的 已 , 个 路 段 和 T2 上 的 FF _i 个 路 段 开始 ,这 里 FF 和 下， 是 
连续 的 斐 波 那 契 数 , 则 实际 上 可 以 完全 消去 拷贝 。 例 如 ,考虑 =7,S= 下 + 下 
二 13+8=21 的 情况 ， 


阶段 T1 的 内 容 T2 的 内 容 T3 的 内 容 注释 

1 1,1,1,1,1,1,1,1,1,1,1,1,1 1,1,1,1,1,1,1,1 初始 分 布 

2 1,1,1,1,1 一 2,2,2,2,2,2,2,2 把 8 个 路 段 合 并 到 T3 
3 一 3,3,3,3,3 2,2,2 把 5 个 路 段 合 并 到 T2 
4 5,5,5 3,3 一 把 3 个 路 段 合 并 到 Ti 
5 5 一 8 ,8 把 2 个 路 段 合 并 到 T3 
6 一 13 8 把 1 个 路 段 合 并 到 T2 
7 21 把 1 个 路 段 合 并 到 T1 


例如 ， 若 把 每 个 初始 路 段 的 相对 长 度 定 为 1， 则 * 2 .22222 2 2 表示 相对 长 度 为 
2 的 8 个 路 段 , 斐 波 那 契 数 在 这 个 图 表 中 是 无 所 不 在 的 ! 

只 有 阶段 1 和 7 对 数据 进行 了 完全 的 扫描 ;阶段 2 仅仅 处 理 初始 路 段 的 16/21; 
阶段 3 仅 处 理 15/21 ,等 等 ,因此 如 果 我 们 假定 初始 路 段 都 有 近似 相等 的 长 度 , 则 “* 扫 


描 ” 总 数 就 成 为 (21 + 16+15+15+16+13+21)/21=5 入。 通过 比较 ,以 上 的 两 阶 


段 的 过 程 将 要 求 8 次 扫描 以 对 21 个 初始 的 路 段 进行 排序 。 我 们 将 看 到 ,一 般 地 ,这 
“ 斐 波 那 契 "型 式 近 似 地 要 求 1.04lgS +0.99 次 扫描 ,使 得 它 同 一 个 4- 磁 带 平衡 合并 
相 匹 敌 ,然而 它 只 要 求 3 条 磁带 。 

同样 的 思想 可 以 推广 到 T 条 磁带 ,对 任何 T 宇 3, 使 用 ( 工 -1) 路 合并 。 例 如 我 
们 将 看 到 ,4- 磁 带 的 情形 只 要 求 对 数据 进行 大 约 .703lgS +0.96 次 扫描 。 推 广 的 形 
式 涉及 推广 的 斐 波 那 契 数 。 考 虑 下 边 6- 磁 带 的 例子 : 


阶段 Tl T2 T3 T4 TS T6 处 理 的 初始 路 段 
1 131 130 128 144 116 一 31+20+28+24+16=129 
7 115 114 122 18 一 516 16xS5=80 
3 1 1 14 一 98 58 8x9=72 
4 1 1 一 174 94 54 4x17=68 
5 1! 一 33” 17? 9 和 4 2x33=66 
6 一 65 33! 17! 91 5! 1xX65=65 
7 129! 一 一 一 一 一 1 Xx 129=129 
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这 里 1 代表 相对 长 度 为 1 的 31 个 路 段 , 等 等 ;这 里 已 经 从 头 到 尾 使 用 了 五 路 合并 。 
这 一 般 的 型 式 是 由 R.L. Gilstad 提出 的 [Proc. Eastern Joint. Computer Conf . 18 
(1960) ,143 一 148j]。 他 把 它 称 做 多 阶段 合并 。3- 磁 带 的 情况 已 经 较 早 地 为 B. KK. 
Betz 发 现 [unpublished memorandum ,Minneapolis-Honeywell Regulator Co. (1956) ] 。 

为 了 如 同上 边 的 例子 中 那样 进行 多 阶段 的 合并 工作 ,我们 在 每 个 阶段 之 后 , 需 
要 使 诸 路 段 在 磁带 上 构成 “完全 的 斐 波 那 契 分 布 "。 通 过 由 底 向 上 读 上 面 的 表 , 可 以 
看 到 当代 =6 时 ,前 7 个 完全 的 裴 波 那 契 分 布 是 itL,0,0,0,01 1,1,1,1,1| ,12，,2， 
2,2,11,14,4,4,3,21 ,18,8,7,6,41 ,116,15,14,12,81 和 131,30,28,24,16} ,我 们 面 
临 的 较 六 问题 是 ; 

1. 这 些 完 全 的 裴 波 那 契 分 布 所 基于 的 规则 是 什么 ? 

2. 如 果 S 不 对 应 于 一 个 完全 的 斐 波 那 契 分 布 , 则 我 们 怎么 办 ? 

3. 我 们 应 该 怎样 设计 初始 的 分 布 扫描 ,使 得 它 在 磁带 上 产生 所 希望 的 配置 ? 

4. 作为 S( 初 始 路 段 个 数 ) 的 函数 ,一 个 T- 磁 带 多 阶段 合并 要 求 对 数据 进行 多 
少 “ 次 ”扫描 ? 

我 们 将 依次 地 讨论 这 4 个 问题 ,首先 给 出 “容易 的 答案 "而 后 进行 更 加 详细 的 分 
析 。 

完全 的 斐 波 那 契 分 布 可 以 通过 周期 地 转动 磁带 的 内 容 来 向 后 运行 而 得 到 。 例 
如 , 当 开 =6 时 ,我 们 有 下 列 的 路 段 分 布 : 

级 T1 T2 T3 T4 TS 总 数 最 后 的 输出 将 在 


0 1 0 0 0 0 1 1T1 
1 1 1 1 1 4 T6 
2 2 2 2 2 1 9 TS 
3 4 4 4 3 2 17 工 4 
4 8 8 7 6 4 33 T3 
5 16 1$ 14 12 8 65 T2 
6 31 30 28 24 16 129 T1 
7 61 39 $5 47 31 253 T6 
8 120 116 108 92 61 497 TS 
n a b, C， d, e， Z T(k) (1) 
n+l c++ atc, at+d, a,+e, Qa, t, 十 4a， T(k—1) 
在 初始 的 分 布 之 后 ,磁带 T6 将 总 是 空 的 。 
从 级 n 到 级 n+1 进行 的 规则 表明 ,在 每 一 级 中 都 有 条 件 
01 之 和 之 cy 之 gd 之 ei (2) 
成 立 。 事 实 上 ,从 (1) 容 易 看 出 
En 一 Qn-l 
d, 一 Qn-l 十 en-1 二 Qnr -1l 十 Qn -2 


Cn = Qn-1+ dn-1 = Qn-l + Qn-2 + Qn-3 
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bn = Qn1lt Cal = Anita 2+ a 3 二 Qn 4 
_ _ (3) 
Qn = Qn-1t brn-1 = Qn-1 + An-2+ an3+ a 4 十 G 5 
其 中 ao=1, 而 且 对 于 ”= 一 1, 一 2, 一 3, 一 4 我 们 令 a, =0。 
第 户 阶 斐 波 那 契 数 下 \2) 定义 为 
FP) 一 FD 十 FP) 十 …* 十 下 对 于 n 宇 p 
Fl? = 0 对 于 0 过 nn 过 p-2 (4) 
Fo = 
换 句 话说 ,我 们 开始 有 p -1 个 0, 然 后 是 1, 然 后 每 个 数 是 前 边 p 个 值 之 和 。 当 p= 
2 时 ,这 是 通常 的 斐 波 那 契 数列 。 对 于 更 大 的 p 值 ,这 个 序列 似乎 首先 是 由 V. 
Schlegel 在 El Progreso Matemitico 4(1894) ,173 一 174 上 加 以 研究 的 。 Schlegel 导出 
了 生成 男 数 
。 wb-1 wh-l > 
CP (5) 
在 个 6- 磁 带 多 阶段 合并 期 间 ,在 Tl 上 的 路 段 数 是 第 5 阶 斐 
波 那 契 数 a, = 下 。 
一 般 地 说 ,如 果 我 们 置 P= 芽 -1, 则 工 条 磁带 的 多 阶段 合并 分 布 将 以 同样 方式 
对 应 于 第 已 阶 斐 波 那 契 数 。 对 于 1 二 三 P ,第 条 磁带 在 完全 的 第 n 级 分 布 中 得 
到 


p 


Fo), -2 十 Fh- 3 十 "+ FI -2 
个 初始 路 段 , 因 此 在 所 有 磁带 上 的 初始 路 段 总 数 为 
t» = PF», 2 + (P—1)FP3+ .+ FO) (6) 


这 样 就 解决 了 “完全 的 斐 波 那 自 分布 "的 问题 。 但 如 果 对 于 任意 nn,S 不 恰巧 等 
于 , 则 我 们 应 做 什么 呢 ? 而 且 开 头 在 这 些 磁带 上 我 们 怎样 得 到 路 段 呢 ? 

当 S 不 是 完全 的 (有 少数 值 是 这 样 的 ) 时 候 , 我 们 还 可 以 像 在 平衡 的 P 路 合并 
中 那样 做 ,加 上 人 工 的 “虚拟 路 段 " 后 使 得 可 以 假想 S 仍然 是 完全 的 。 有 若干 种 方 
式 来 附加 虚拟 路 段 ,我 们 尚 不 准备 分 析 这 样 做 的 “最 好 ”的 方式 。 我 们 将 首先 讨论 分 
布 的 方法 和 指定 虚拟 路 段 的 方法 , 它 并 非 严格 地 是 最 优 的 ,尽管 它 有 简便 的 长 处 而 
且 似 乎 比 所 有 其 它 同样 简单 的 方法 都 要 好 些 。 


算法 D( 具 有 “水平 ”分布 的 多 阶段 合并 排序 ) 这 个 算法 把 初始 路 段 疏 散 到 磁带 
一 次 一 个 路 段 ,直到 初始 路 段 的 供给 穷尽 为 止 。 然 后 它 确定 这 些 磁 带 如 何 被 合 
并 。 假 定 有 T= P+1 之 3 台 可 利用 的 磁带 机 ,同时 使 用 已 路 合并 。 磁 带 人 可 以 用 
来 保存 输入 ,因为 它 不 接收 任何 初始 的 路 段 。 维 护 如 下 一 些 表 项 : 
AL ,Ts 入 工 :我 们 正在 力求 的 完全 斐 波 那 契 分 布 。 
DLjj],1 专 j 志 本 :假定 应 出 现在 设备 编号 为 ; 的 逻辑 磁带 开始 处 的 虚拟 路 段 个 
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数 。 






D2. 输 入 ; 


图 68 多 阶段 的 合并 排序 


TRAPE[ ) ,1 委 ) 科 人 :对 应 于 逻辑 磁带 设备 号 j 的 物理 磁带 设备 号 (处 理 “ 逻 辑 磁 
带 设备 号 ”是 方便 的 。 对 它 分 配 物理 磁带 设备 号 是 随 算法 的 进行 而 变化 的 )。 


D1. 


D 


ie 


D3. 


D4. 


D 


an 


D6. 


[初始 化 ] 对 于 1 二 ;<T, 秆 ALj]<D[j] 一 1 和 TAPE[k]<-;j。 置 ALT]<D 
[ 工 ]< 一 0 和 TAPE[ 修 ] 一 全。 然后 置 /1,j 一 1。 


[输入 到 磁带 j]」 写 一 个 路 段 到 编号 为 j 的 磁带 上 ,并 且 DLj] 减 1。 然 后 如 


果 输 入 已 穷尽 , 则 重 绕 所 有 的 磁带 并 转 到 步骤 D5。 

[; 增值 ] 如 果 D[j]1<D[j+1j, 则 j 增加 1, 并 且 返 回 到 D2. 否则 如 果 D[j] 
=0, 则 转 到 D4。 否 则 置 j<1, 并 且 返 回 到 D2。 

[ 升 一 级 ] 置 /一 1+1,a 一 A[1j, 然 后 对 于 j=1,2,…,P( 在 这 个 次 序 下 ) 
置 DLjj]j<a+ALj+1] 一 A[jj] 和 ALjj<-a+AL;j+1j( 见 (1) 并 注意 A[P+1] 
总 是 0。 这 时 我 们 将 有 DL1j] 宇 D12 | 之 … 宇 DLT])。 现 在 置 )<1 并且 返 回 
到 D2 。 


.|[ 合 并] 如 果 /=0, 则 排序 完成 而 且 输 出 在 TAPE[1] 上 。 否 则 ,把 TAPE[1]， 


… ,TAPEL P|] 的 路 段 合 并 到 TAPE[ 人] 上 ,直到 TAPE[ P] 成 为 空 的 而 且 DLP] 
=0 为 止 。 对 于 每 一 个 被 合并 的 路 段 ,合并 过 程 应 该 如 下 操作 :如 果 对 所 有 
jl1 声 ] 志 P,DLj]>0, 则 D[ 工 ] 增 加 1 且 对 于 1 过; 三 P, 每 个 DLj] 减 1; 否则 
从 每 一 个 使 得 DLj]=0 的 TAPE[j;] 合 并 一 个 路 段 ,而 且 对 每 个 其 它 的 j， 
DLj | 减 1( 于 是 虚拟 路 段 被 想像 为 在 磁带 的 开始 而 不 是 在 末尾 )。 

[ 降 一 级 ] 置 /一 /一 1。 重 绕 TAPE[ P|] 和 TAPE[ 个 ]( 实 际 上 TAPEL P|] 的 重 
绕 在 步骤 D5 中 ,在 输入 了 它 的 最 后 一 组 路 段 之 后 就 可 以 开始 )。 然 后 置 
(TRPE[ 1 ] ,TARPEL2 | ,……… ,TAPE[ T|)<—(TAPE[ T],TAPE[1],.,TAPE[T-1]), 
(DL1],D[2], ,DLLTJ)<e 一 (DLLT] ,DLL ,D[ 开 -1]), 并 返回 到 步骤 D5。 

| 
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此 算法 的 步骤 D3 中 如 此 简洁 地 叙述 的 分 布 规 
则 ,是 打算 尽 可 能 在 每 条 磁带 上 设置 相等 个 数 的 虚 
拟 路 段 。 图 69 所 示 为 我 们 在 一 个 6- 磁 带 的 排序 中 
从 级 4(33 个 路 段 ) 进 行 到 级 5(65 个 路 段 ) 时 分 布 的 
次 序 ;如果 仅仅 有 ,比如 说 ,53 个 初始 的 路 段 , 则 所 
有 编号 为 54 和 更 高 的 路 段 都 将 被 处 理 作 虚拟 的 (这 
些 路 段 实际 上 被 写 到 这 条 磁带 的 末尾 ,但 是 最 好 把 
它们 想像 成 写 到 开始 处 ,因为 已 经 假定 虚拟 路 段 都 
是 在 开始 处 )。 

我 们 现在 已 经 讨论 了 上 边 列 出 的 前 3 个 问题 ， 13 
剩 下 要 考虑 的 是 数据 “扫描 ”的 次 数 。 把 6- 磁 带 的 例 ”TT 
子 同 表 (1) 进 行 比较 ,我们 看 到 , 当 S= to 时, 处理 的 图 69 当 从 级 4 进行 到 级 5 时 ,路 
初始 路 段 的 总 数 是 cjii 二 ast2+ a3t3+a2t4 二 aits 段 34 到 65 被 分 布 于 各 磁带 上 的 次 
+ aote ,初始 的 分 布 扫描 不 计 在 内 。 习 题 4 导出 生 序 ( 见 (1) 的 完全 分 布 表 )。 阴 影 区 





























域 表 示 当 到 达 级 4 时 已 被 分 布 好 
成 函数 的 前 33 个 路 段 
ES nn _” 下 
0 
(7) 





CN Ee os oe 
六 之》 是 >" 二 
之 1 


1 


由 此 得 出 ,一般 说 来 当 S= zi 时 处 理 的 初始 路 段 数 准确 地 等 于 在 a(z)i(z) 中 x” 的 
系数 ,加 上 zi, (对 于 初始 的 分 布 扫描 )。 这 使 得 有 可 能 如 习题 S 一 7 所 示 来 计算 多 阶 
段 合并 的 渐 近 行为 ,并 得 到 表 1 中 所 示 的 结 采 。 
表 1 多 阶段 的 合并 排序 的 近似 特性 
扫描 /阶段 


2.078 ln S+0.672 
1.641 ljn S+0.364 
1.324 In S+0.078 
1.479 jn 3 一 0.183 


1.460 ln 9 一 0.424 


1.451 jn S -0.642 


1.447 jn S— 0.838 
1.4453 in 9 一 1.017 


1.443 jn SS -2.170 


2 


1.504 in S+0.992 
1.015S jn S$+0.965 
0.863 In S+0.921 
0.79S jn S+0.864 
0.762 ln S+0.797 
0.744 In S +0.723 
0.734 jn S+0.646 
0.728 In S+0.568 


0.721 jn S$—-0.030 


1.6180340 


1.8392868 


1.9275620 


1.9659482 


1.9835828 


1.9919642 


1.9960312 


1.9980295 





1.9999981 
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在 表 1 中 ,“ 增 长 率 " 为 im, 下 wii+1/t, 此 即 路 段 的 个 数 在 每 一 级 增长 的 近似 因 
子 。“ 扫 描 " 表 示 每 个 记录 被 处 理 的 平均 次 数 , 即 1/S 乘 上 在 分 布 和 合并 阶段 处 理 的 
初始 路 段 的 总 数 。 对 于 完全 分 布 来 说 , 当 S 一 时 ,存在 一 个 e。>0, 使 得 在 每 种 情 
况 下 所 述 的 扫描 i 和 阶段 数 都 正确 到 O(S “)。 
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初始 路 段 S 
图 70 ”使 用 算法 DD 的 多 阶段 合并 的 效率 
图 70 所 示 为 用 算法 D 处 理 不 完全 数 的 情况 时 ,作为 S 的 一 个 函数 ,每 个 记录 
被 合并 的 平均 次 数 。 注 意 ,对 于 3 条 磁带 ,恰恰 在 完全 分 布 之 后 就 出 现 了 相对 低 效 
率 的 “峰值 ” ,但 当 有 4 条 或 更 多 的 磁带 时 ,这 种 现象 就 很 少见 了 。 使 用 8 条 或 更 多 
的 磁带 对 6 条 或 7 条 磁带 的 改进 相当 小 。 


更 仔细 的 考察 ”在 要 求 & 次 扫描 的 一 个 平衡 的 合并 中 ,在 排序 过 程 中 每 个 记录 
恰巧 筱 处 理 不 次 。 但 是 多 阶段 的 过 程 却 并 非 这 样 ; 某 些 记录 可 能 得 到 比 其 它 记 录 多 
许多 次 的 处 理 ,而 且 同 时 ,如 果 把 虚拟 路 段 安排 到 经 党 被 处 理 的 位 置 , 则 我 们 就 能 赢 
得 速度 。 

因此 让 我 们 更 仔细 地 研究 多 阶段 的 分 布 ,不 像 在 (1) 中 那样 仅仅 考察 在 每 个 磁 
珊 上 的 路 段 数 ,我 们 把 每 一 路 段 同 它 的 合并 数 , 即 在 整个 多 阶段 排序 期 间 将 被 处 理 
的 次 数 ,结合 起 来 ,就 得 到 下 列 的 表 , 以 代替 (1): 


“ON 
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级 Tl 工 2 T3 T4 TS 
0 0 一 一 一 一 
1 1 1 1 1 1 
2 21 21 21 21 2 
3 3221 3221 3221 322 32 
4 43323221 43323221 4332322 433232 4332 


3 3443433243323221 544343324332322 34434332433232 544343324332 $4434332 


§ © 0 。 6 5 0 0 @ 0 0 § 4 0 so 6 Bo 0 a so 8 ee ee 2 9 0 9 8 os 8 BB ee 9 BB 0 0 0 ee ss 


n+1 (A, +1)B, (A,+1)C, (A, + 1)D, (A, + 1)E, A.+1 (8) 


® Se ee ee ee ee ee ee ee ee ee ee 8 ee ee ee ee ee ae 0 0 0 0 0 ae ae ee ee Ba © BB  @ 


如 果 我 们 从 n 级 分 布 开 始 , A, 是 a, 个 值 的 串 ,表示 TI1 上 每 个 路 段 的 合并 数 ;B, 是 
对 于 T2 的 对 应 的 串 ,等 等 。 记 号 “(A +1)B," 意味 着 “A, 中 的 所 有 值 增加 1 ,后 边 
紧 接 以 B,”。 

图 71(a) 所 示 为 出 现在 末端 的 A;,B;,C;,Ds,Es, 示 出 每 个 路 段 的 合并 数 如 何 
出 现在 磁带 上 ;注意 ,例如 ,在 每 条 磁带 开始 的 路 段 将 锌 处理 5 次 ,而 在 T1 末尾 的 路 
段 将 仅仅 被 处 理 1 次 。 多 阶段 合并 的 这 种 区 别 对 待 的 情况 ,使 得 把 一 个 虚拟 路 段 放 
置 在 磁带 的 开始 比 放 在 磁带 的 末尾 要 好 得 多 。 图 71(b) 所 示 为 在 5 级 多 阶段 合并 中 
路 段 分 布 的 一 个 最 佳 次 序 ,把 每 个 新 路 段 放 置 到 具有 最 小 合并 次 数 的 位 置 上 。 算 法 
D( 见 图 69) 并 不 是 十 分 好 的 ,因为 在 所 有 “3" 的 位 置 被 用 完 之 前 , 它 填充 了 某 些 “4” 
的 位 置 。 
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2 2 ||2 
3 3|13 
3 31|3 
4 4|1|14 
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4 41|4 
4 41|4 
3 3 [5 磁带 的 开头 








图 71 对 于 6 条 磁带 的 第 5 级 多 阶段 的 分 布 的 分 析 
(a) 合并 数 ; (b) 最 优 分 布 的 次 序 。 
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递 推 关 系 (8) 表 明 ,B; , C; ,D, ,EF 的 每 一 个 都 是 A, 的 初始 子 串 。 事 实 上 ,我 们 
可 以 使 用 (8) 来 推导 公式 


上， 一 (A,-1) + 1 

D, 一 (A,-1A,-2) + 1 

CC， 一 (A,-_1A,-2A,-3) +1 (9) 
B 


» = (A,-1A,-2An-3An-4) + 1 
A;, = (A,_1A, -2As-3An-4An-s) + 1 
这 推广 了 仅仅 处 理 这 些 串 的 长 度 的 公式 (3)。 进 而 ,从 定义 A 的 规则 可 以 看 出 ,在 每 
级 的 开头 出 现 的 实际 上 是 相同 的 结构 ;我 们 有 


4, = 1- Q, (10) 
其 中 Q, 是 由 法 则 
Q;, = QQ + (Qs3+2)(Q4+3)(Q,-s +4) 对 于 n 宇 1 
Qo = 0， 
Q, = 二。 ( 空 串 ) 对 于 ”<0 (11) 


定义 的 a; 个 值 的 一 个 串 。 由 于 Q, 以 Q, -1 开始 ,我 们 可 以 考察 无 穷 的 捉 Q。; 它 的 
前 a 个 元 素 等 于 Q, ,这 个 串 Qo 实际 上 表征 了 在 多 阶段 分 布 中 所 有 的 合并 数 。 在 
6- 磁 市 的 情况 下 ， 
Q- =011212231223233412232334233434412 
232334233434432334344334434312232… 
习题 11 包含 了 对 于 这 个 串 的 一 种 有 趣 的 解释 。 
设 A, 是 串 TM Ma , 令 


(12) 


A(X) = zx"1+ r++r ai 

是 相应 的 计算 每 个 合并 数 出 现 次 数 的 生成 函数 ;而 且 类 似 地 定义 B,(z),C,(z)， 
D,(z),E,(z)。 例如 ,As(z)=zxi+zx +r i +r +r +r +r +r=ri+3r’+ 
3zx +X。 关系 (9) 告 诉 我 们 ,对 于 n 宇 1, 有 

E(xz) = zx(A,-i(z)) 

D(x) = zxz(A,i1(x) + A,_,(zx)) 

CCZ) = rz(A,i(z) + A,2(x) +A 3(Z)) (13) 

BAz) = rz(As-i(r) + A(z) + A, 3(T) + A,-4(z)) 

4,(Z) = xz(As(z) + A, DZz)+A3Oz)+A s(x) + A,s(z)) 
其 中 Ao(x)=1, 而 且 对 于 n= 一 1, 一 2, 3, -4,A,(z)=0。 因 此 
A(x) 一 Ta 一 (ez + z +z +z4+ 之 > )* 

(14) 

考虑 所 有 磁带 上 的 路 段 ,我 们 设 
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T(z) = A(x)+B,(z)+C,(zxz)+D,(zx)+E,(x) 7 之 1 (15) 
由 式 (13) 我 们 立即 有 
T,(z) = 5A,_1(z) + 4A, (7) + 3A, 3 zz)+24 4(z)+A， s(x) 
因此 


> 7, (x)2" = Std + 3z 7 +24 -十 2 (16) 
1—- zx(z+ 2x’ + 之 3 十 2 + z”) 

式 (16) 的 形式 说 明 ， 容易 计算 出 T, (zz) 的 系数 : 

v 2? 之 3 之 4 之 ” v6 2/ zs v? v10 zl! zl 之 1 14 
rr 5 4 3 2 1 0 0 0 0 0 0 0 0 0 
rr” 0 5 9 12 14 15 10 3 0 0 0 0 
xz 0 0 5 14 26 40 55 60 57 48 35 20 10 4 
rr 0 0 0 5 19 45 85 140 195 238 260 255 220 170 
rz™” 0 0 0 0 5 24 69 154 294 484 703 918 1088 1168 


(17) 

这 个 表 的 列 给 出 了 工 ,(z); 鲍 如 ,T4(z)=2z+12z2+14z3+5z4。 在 第 一 行 之 后 ， 
这 个 表 中 的 每 个 项 目 都 是 位 于 前 边 一 行 中 对 应 项 目 左边 的 5 个 项 目 之 和 。 

在 一 个 “完全 的 ”第 ”级 分 布 中 ,路 段 的 数目 是 T, (1) ,而 且 当 这 些 路 段 被 合并 
时 处 理 的 总 数 是 微 商 T’(1) ,现在 

5 

在 式 (16) 和 式 (18) 中 置 z==1， 就 可 得 出 一 一 个 同 我 们 前 面 的 结论 相 一 致 的 结果 ,这 个 
结论 就 是 :对 于 一 个 完全 的 第 n 级 分 布 ,合并 的 处 理 是 a(z)t(z) 中 zx" 的 系数 ; 参 
见 式 (7)。 

我 们 可 以 使 用 函数 T, (xz) 来 确定 , 当 以 最 优 方式 加 上 虚拟 路 段 时 所 涉及 的 工作 
量 有 多 少 。 令 于 , (m ) 是 在 第 n 级 分 布 中 最 小 的 m 个 合并 数 之 和 。 通 过 考察 式 
(17) 的 诸 列 ,很 容易 计算 出 这 些 值 来 ,而 且 我 们 发 现 袜 ,(z) 由 下 表 给 


m=1 2 3 4 5 6 7 8 9 10 11 12 13 14 19 16 17 18 19 20 21 


n=1 1 2 3 4 5 % % % % oo co oo co oo oo oo % co oo co oo 
n=2 1 2 3 4 6 8 101214% co oo co co co oo eco oo co co oo 
n=3 1 2 3 5 7 9 11 13 15 17 19 21 24 27 30 33 36 co co % oo 
n=4 1 2 4 6 8 10 12 14 16 18 20 22 24 26 29 32 35 38 41 44 47 (19) 


例如 ,如果 我 们 希望 用 一 个 第 3 级 分 布 来 对 17 个 路 段 排序 ,， 则 处 理 的 总 数量 为 之 3 
200 ， 
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(17) = 36; 但 是 如 果 我 们 使 用 第 4 级 或 第 5 级 分 布 ,以 及 最 优 地 放置 虚拟 路 段 的 位 
置 , 则 在 合并 阶段 的 处 理 总 数量 就 只 有 >4(17) = 2;(17)=35。 使 用 第 4 级 是 更 好 
的 ,尽管 17 对 应 于 一 个 “完全 的 "第 3 级 分 布 ! 其 实 , 当 S 变 得 很 大 时 ,已 经 证 实 级 
的 最 优 个 数 要 比 在 算法 D 中 所 使 用 的 多 得 多 。 

习题 14 表明 有 一 个 非 减 的 数 序 列 M, ,使 得 级 ”对 于 M, 委 S< M+1 是 “最 优 ” 
的 ,但 对 于 S 宇 M, 11 则 不 然 。 在 6- 人 磁带 的 情况 下 ,我 们 刚刚 计算 的 >,,(m ) 的 表 说 
明 

Mo = 0, M, = 2, M, = 6, M;= 10, M4 = 14 

上 边 的 讨论 仅仅 处 理 了 6- 磁 带 的 情况 ,但 是 显然 ,同样 的 思想 可 应 用 于 对 于 任 
何 了 >3 的 工 条 磁带 的 多 阶段 的 合并 ;在 所 有 适当 的 位 置 中 ,我 们 都 简单 地 以 P= 
修一 1 代替 5。 表 2 为 对 于 各 种 工 值 所 得 到 的 序列 M,。 表 3 和 图 72 指出 了 在 做 成 
虚拟 路 段 的 一 个 最 优 分布 之 后 ,被 处 理 的 初始 路 段 总 数 (在 表 3 的 下 部 出 现 的 公式 
应 当 有 保留 地 采用 ,因为 它们 是 在 变 程 1 三 S5000( 或 者 对 于 T=3 为 1 过 S$S 达 < 
10000) 上 “最 小 平方 符合 "的 ;这 导致 了 有 些 反常 的 特性 ,因为 给 定 的 S 的 范围 并 非 
对 于 所 有 的 工 都 是 同样 有 利 的 。 当 S 一 吕 时 ,在 一 个 最 优 的 多 阶段 分 布 之 后 处 理 的 
初始 路 段 数 渐 近 于 S logp S ,但 是 收敛 于 此 渐 近 极限 值 的 过 程 是 极端 缓慢 的 )。 

表 2 对 应 于 最 优 级 的 路 段 数 








12 234 820 1197 1034 555 792 1002 330 Mi 
13 378 1635 1363 1249 1996 922 1228 1499 Ms 
14 611 2401 4034 3910 2486 1017 1432 1818 Mia 
13 988 4959 5379 4970 2901 4397 1598 2116 Mis 
16 1598 7029 6456 5841 10578 5251 1713 2374 Mis 
17 2574 14953 18561 19409 13097 5979 8683 2576 M1 
18 3955 20383 22876 23918 13336 6499 10069 2709 Mis 
19 6528 44899 64189 27557 17029 30164 11259 15787 Mi 
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天 
尖 
所 -二 人 一 4 
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让 T=5 
i 
< T=7 
T=8 
T=10 
1 2 5 10 20 50 100 200 500 1000 2000 5000 
初始 路 段 $ 
图 72 使 用 和 图 70 同样 的 假定 ,具有 最 优 初始 
分 布 的 多 阶段 合并 的 效率 


表 3 在 最 优 的 多 阶段 合并 期 间 处 理 的 初始 路 段 


36 24 

90 60 

294 194 

702 454 
4641 3041 2163 1904 1734 1632 
10371 6680 4672 4347 3739 3632 
63578 41286 28620 26426 23114 22073 


(1.51 0.951 0.656 0.589 0.539 0.488) xSlnS 
Call + .14 +.19 $21 F022. dy18y .35 





表 4 表明 算法 D 的 分 布 方法 堪 与 表 3 的 最 优 分 布 结果 相 匹 敌 。 显 然 , 当 S 和 

变 得 很 大 时 ,算法 D 并 不 是 非常 接近 最 优 的 ;但 是 还 不 清楚 在 这 两 种 情况 下 如 何 能 

比 算法 D 做 得 更 好 而 又 不 致 搞 得 过 分 复杂 ,特别 是 ,如 果 我 们 事先 并 不 知道 S 的 情 
202. 
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况 时 束 更 是 如 此 。 胖 而 我 们 很 少 碰 上 很 大 的 S( 见 5.4.6 小 记 ) ,所 以 算法 D 实际 上 
并 不 是 太 坏 的 ;事实 上 , 它 相 当 好 。 

多 阶段 排序 首先 是 由 W.C. Carter 从 数学 上 加 以 分 析 的 [ Proc. IFIP Congress 
(1962),62 一 66]。 关 于 最 优 虚 拟 路 段 安排 的 以 上 许多 结果 ,原来 是 由 B.Sackman 和 
T.Singer 给 出 的 [“A vector model for merge sort analysis” ,an unpublished paper pre- 
sented at the ACM Sort Symposium( November 1962),21 pages]。Sackman 后 来 提出 
在 算法 D 中 使 用 的 分 布 的 水 平方 法 。D. Donald Shell[CACM 14(1971) ,713 一 719; 
1S$(1972) ,28] 独 立地 发 展 了 这 个 理论 ,指出 了 关系 (10) ,并 对 于 香干 不 同 的 分 布 算 
法 进行 了 详细 的 研究 。Derek A.Zave[SICOMP 6(1977) ,1 一 39] 已 经 做 出 了 进一步 
的 有 教 益 的 发 展 和 改进 ;习题 15 到 17 讨论 了 Zave 的 某 些 结果 。 生 成 函数 (16) 首 
先是 由 W. Burge 研究 的 LProc. IFIP Congress (1971) ,1,454 一 459] 。 

表 4 在 标准 多 阶段 合并 时 处 理 的 初始 路 段 


T=5 T=6 T=7 T=8 





24 
62 
194 
459 


4708 3114 2399 2416 2191 2100 2047 


1000 10730 6920 $774 5370 4913 4716 4597 


3000 64740 43210 36497 32781 31442 29533 28817 


重 绕 时 间 为 何 ? ”迄今 ,我 们 都 以 “被 处 理 的 初始 路 段 " 作 为 比较 磁带 合并 策略 
的 有 效 性 的 惟一 测度 。 但 本 节 开 始 的 例子 中 在 阶段 2 到 6 的 每 一 阶段 之 后 ,计算 机 
都 必须 等 候 两 条 磁带 重 绕 ;在 下 一 阶段 可 以 进行 之 前 ,先前 的 输出 磁带 和 新 的 当前 
输出 磁带 两 者 都 必须 重新 定位 到 开头 处 。 这 会 引起 一 个 相当 大 的 返 延 ,因为 先前 的 
输出 磁带 一 般 都 包含 了 相当 百分比 的 正 被 排序 的 记录 ( 见 表 1 的 “扫描 /阶段 ”" 列 )。 
在 所 有 这 些 重 绕 操作 期 间 , 让 计算 机 困 得 无 聊 是 令 人 遗憾 的 ,但 如 果 我 们 使 用 一 种 
不 同 的 合并 形式 , 那 就 可 以 用 其 它 磁带 来 完成 有 用 的 工作 。 

简单 地 修改 多 阶段 的 过 程 ,就 能 解决 这 个 问题 ,尽管 它 至 少 要 用 5 条 磁带 |[ 见 
Y.Cesari,Thesis,U.of Paris(1968) ,25$ 一 27 ,其 中 把 这 个 思想 归功 于 JJ.Caron]。 在 
Caron 的 方案 里 ,在 每 个 阶段 ,都 把 全 -3 条 磁带 上 的 路 段 合 并 到 另 一 条 磁带 上 ,而 
剩 下 的 两 条 磁带 重 绕 。 

例如 ,考虑 6 条 磁带 和 49 个 初始 路 段 的 情况 。 在 下 表 中 ,R 表示 在 这 个 阶段 进 
行 重 绕 ,而 且 假 定 Ts 包含 原来 的 输入 : 


阶段 “Ti T2 T3 T4 TS T6 写 的 时 间 重 绕 时 间 


1 11!! 1 15 ]18 一 (R) 49 17 
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2 (R) 1 1 一 R 3 8x3=24 49—17= 32 
3 1° 14 一 R 35 R Sx3=15 max(8,24) 
4 1° -一 R S54 R 34 4xX5=20 max(13,15) 
5 一 R 7 R 33 3? 2x7=14 max(17,20) 
6 R 117 R 和 31 一 2x11=22 max(11,14) 
7 15! R 71 5! 一 R 1xX15=15 max(22,24) 
8 R 11! 79 一 R 23! 1x23=23 max(15,15) 
9 15! 111 一 R 330 R 0x33=0 max(20 ,23) 
10 (15°) ”一 R 49! (R) (230) 1x49=49 14 


这 里 所 有 的 重 绕 时 间 实 际 上 都 是 重 闭 的 ,只 有 阶段 9( 这 是 一 个 “虚拟 阶段 ”, 它 为 最 
后 的 合并 做 准备 ) 以 及 在 初始 分 布 阶段 之 后 ( 当 所 有 磁带 都 被 重 绕 时 ) 除 外 。 如 果 : 
是 合并 一 个 初始 路 段 中 全 体 记 录 的 时 间 , 且 如 果 > 是 重 绕 一 个 初始 路 段 的 时 间 , 则 
这 个 过 程 花 费 大 约 182: + 40r 加 上 初始 分 布 和 最 后 重 绕 花费 的 时 间 。 对 于 使 用 算 


法 D 的 标准 多 阶段 法 ,对 应 数字 是 140+ +1047, 当 += 闻 ! 时 它 要 差 一 些 ,而 当 = 


3t 时 则 稍微 好 些 。 


我 们 对 于 标准 多 阶段 法 已 说 过 的 每 件 事情 ,都 可 适用 于 Caron 的 多 阶段 法 ; 例 
如 ,序列 a, 现在 满足 的 不 是 (3) 而 是 递 推 式 
dn = Qn-2+ Qn-3 + ay-4 _ (20) 
读者 将 发 现 , 像 我 们 分 析 标 准 的 多 阶段 法 那样 来 分 析 这 个 方法 是 有 教 益 的 , 因 
为 它 将 增进 对 于 这 两 种 方法 的 理解 (比如 ,见习 题 19 和 20)。 
表 5 给 出 了 关于 Caron 多 阶段 法 的 一 些 事 实 ,它们 类 似 于 表 1 中 的 通常 多 阶段 法 
的 相应 事实 。 注 意 ,Caron 的 方法 就 处 理 的 路 段 数 以 及 重 绕 的 时 间 而 言 ,实际 上 比 对 8 
条 或 更 多 磁带 的 多 阶段 法 优越 ,尽管 它 进 行 了 本 -3 路 合并 而 不 是 全 -1 路 合并 1! 
表 5 Caron 多 阶段 合并 排序 的 近似 行为 
扫描 /阶段 





3.336 in S+0.158 
2.016 ln S-0.166 
2.337 In S -0.472 


2.216 ln S—0.762 
2.156 in S -1.034 
2.124 ln 9 一 1.290 
2.078 ln S—3.093 


一 个 高 阶 的 合并 并 不 必然 意 跌 着 一 个 有 效 的 玲 序 ,在 我 们 认识 到 这 一 点 之 前 ， 
* 264 : 


1.463 jn S+1.016 
0.931 jn S+1.014 
0.781 ln S+1.001 
0.699 jn S+0.980 
0.634 In S+0.954 
0.626 ln S+0.922 
0.575 in S+0.524 


1.3247180 
1.4655712 
1.5341577 
1.5701473 
1.5900054 
1.6013473 
1.6179086 
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上 述 事实 似乎 是 一 种 怪事 。 作 为 一 个 极端 的 例子 ,考虑 把 一 个 路 段 放 到 TL 上 而 且 
把 ”个 路 段 放 到 T2 ,T3 ,T4,TS 上 ;如 果 我 们 交替 地 进行 五 路 合并 到 T6 和 Tl 上 ， 
直到 T2,T3,T4,T5 变 空 为 止 , 则 处 理 时 间 是 (2n“+ 3n) 个 初始 路 段 长 度 , 实 际 上 和 
S* 而 不 是 和 S logS 成 比例 ,尽管 自始至终 地 进行 了 五 路 合并 。 


分 带 ” 重 绕 时 间 的 有 效 重要 是 在 许多 应 用 中 所 产生 的 一 个 问题 ,而 不 只 限于 排 
序 中 ,而 且 有 一 个 通常 可 资 利用 的 一 般 方 法 。 考 虑 一 个 迭代 过 程 , 它 以 如 下 方式 使 
用 两 条 磁 囊 : 


Tl T2 
阶段 1 输出 1 一 
重 绕 一 
阶段 2 输入 1 输出 2 
重 绕 重 绕 
阶段 3 输出 3 输入 2 
重 绕 重 绕 
阶段 4 输入 3 输出 4 
重 绕 重 绕 


等 等 ,其 中 “输出 有 "意味 着 写 出 第 个 输出 文件 ,而 “输入 有 ”就 意味 着 读 和 人 它 。 当 
使 用 3 条 磁带 时 ,如 同 C. Weisert 所 建议 的 [CACM 5 (1962) ,102 |] 那样 ,可 以 免 去 重 
绕 的 时 间 : 


T1 T2 T3 
阶段 1 输出 1.1 一 一 
输出 1.2 一 一 
重 绕 输出 1.3 一 
阶段 2 输入 1.1 输出 2.1 一 
输入 1.2 重 绕 输出 2.2 
重 绕 输入 1.3 输出 2.3 
阶段 3 输出 3.1 输入 2.1 重 绕 
输出 3.2 重 绕 输入 2.2 
重 绕 输出 3.3 输入 2.3 
阶段 4 输入 3.1 输出 4.1 重 绕 
输入 3.2 重 绕 输出 4.2 
重 绕 输入 3.3 输出 4.3 


等 等 ,这 里 “输出 有 有.;" 意味 着 , 写 出 第 个 输出 文件 的 第 j 个 1/3 ,而 “输入 大 .六 就 意 
味 着 读 人 它 。 实 际 上 ,如 果 重 绕 速 度 至 少 是 读 写 速度 的 两 倍 , 则 所 有 的 重 绕 时 间 都 
将 被 消去 。 这 样 的 一 个 过 程 ,其 中 每 个 阶段 的 输出 都 被 分 到 一 些 磁带 上 , 称 为 “分 

R.L.McAllester[CACM 7 (1964) ,15$8 一 1$9] 已 经 证 明 ,分 带 是 一 个 把 多 阶段 合 
并 中 的 重 绕 时 间 加 以 重 公 的 有 效 方法 。 他 的 方法 可 以 用 于 4 条 或 更 多 的 磁带 ,而 且 
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它 进行 下 -2 路 合并 。 
再 次 假定 有 6 条 磁带 ,让 我 们 来 设计 一 个 合并 型 式 , 它 的 操作 如 下 :分 开 在 每 级 
上 的 输出 ,其 中 “1”,“O”, 和 “R”" 分 别 表示 输入 、 输 出 和 重 统 。 


级 Tl T2 T3 T4 T5 T6 输出 路 段 的 个 数 
7 I I 1 I R O 27 
I I I I O R U7 
6 1 I I R O I 16 
I I I O R I vs6 
5 I I R O I I us 
I I O R I I vs 
4 1 R O 1 1 I Us 
I O R I I I via 
3 R O I I I I U3 
O R I I I I vs 
2 O I I I I R U2 
R I I I I O U2 
1 I I 1 I R O ul 
I I I I O R vl 
0 I I I R O I uo (21) 
I I I O R I vo 
为 了 以 T4 上 有 一 个 路 段 以 及 所 有 其 它 的 磁带 都 变 空 告终 ,我 们 需要 有 
vo 三 1 
uo+ v| 三 0 


Ul1+ v> 三 WU0 十 了 0 
UW + v3 Wt+ vt+ wt vo 
U3+ va U2 + Vv + Ut+v+uot+ vo 
2U4 十 5 三 2U3 十 上 3 十 WU 十 2 十 WU1 二 OO1 十 2U0 十 0 
ust+ ve =uat vt+ut vat+ ut+ v + ut+ vti+uoti+ vo 
等 等 ;一 般 说 来 ,要 求 对 于 所 有 的 2 之 0， 
Un 十 Wai = Ua-tt Unit Un2 t+ Var2t Un-3t Vn-3 + Un-4 + vn-4 (22) 
这 里 我 们 认为 ,对 所 有 j<0 wu;= w=0。 
这 些 方程 没有 惟一 的 解 ; 其 实 , 如 果 令 所 有 的 x 都 为 0, 则 我 们 就 浪费 了 一 条 磁 
带 而 得 到 了 通常 的 多 阶段 合并 ! 但 是 如 果 我 们 选择 w 守 w+1, 则 重 绕 时 间 将 令 人 
McAllester 建议 取 
Un 二 nr-l1 十 Vn-2 + un-3 十 Vn,-4 
Vn+l 二 Un-l 十 Un-2 十 Un-3 十 Un-4 
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(Zz0,T1)T2) TI3, 4 TS," ) 一 (Uo, U0 VIs U1 v2, U2s'*") 
满足 一 致 递 推 式 zx, =z 3 + +z 7y+z oo 然而 可 以 证 明 , 石 令 
Vn+l 三 Un 1l 十 Vn-it Un-2 十 vn-2 (23) 
Un = Un-3 + Un-3 t+ Urn-4 + Un-4 
则 更 好 ,这 个 序列 不 仅 在 它 的 合并 时 间 方 面 稍 好 些 ,而 且 它 还 有 很 大 的 长 处 , 即 对 应 
的 合并 时 间 可 从 数学 上 加 以 分 析 。McAllester 的 选择 是 极其 难以 分 析 的 ,因为 不 同 
长 度 的 路 段 可 以 在 同一 个 阶段 中 出 现 ; 我 们 将 看 到 这 对 于 (23) 则 不 然 。 
在 (21) 的 型 式 中 按 反 方向 进行 ,我 们 可 以 导出 每 级 上 每 条 磁带 的 路 段 数 ,并 得 
到 下 列 的 排序 方案 : 


级 Ti T2 T3 T4 T5 T6 写 的 时 间 重 绕 时 间 
123 121 1 1 一 1 82 23 
7 -13 1 1 16 R 1144 4x4=16 82 一 23 
1 1 1 一 4 R 6X4=24 27 
6 120 1 14 R 4 1844 3x4=12 10 
1 14 一 44 R 1444 4x4=16 36 
5 15 1 R 447! 48 1344 1xX7=7 17 
1° 一 7 R 4” 4 3x7=21 23 
4 1 R 73131 4271 4 43 1x13=13 21 
一 13! R 4*7! 4 4? 1 X13= 13 34 
3 R 13!19! 7*13! 4171 4? 41 1X19=19 23 
191 R 71131 71 4! 一 1X19=19 32 
2 19'31?° 13119: 71131 7! 41 R 0x31=0 27 
R 19! 131 7° 一 31! 1x31=31 19 
1 191319 19! 13! 7° R 311520 0x52=0 
19131° 19! 131 一 52° R 0 x 0 max(36,31,23) 
0 19131 191 131 R 520820 31'52? 0x82=0 
(31°) (19°) 一 821 (R) (52°) 1x82=82 0 


当 输 入 磁带 TS 被 重 绕 时 (82 个 单位 ) ,在 第 2 级 的 上 半 阶 段 (27 个 单位 ) ,以 及 在 第 
1 级 和 第 0 级 的 最 后 的 “虚拟 合并 ”阶段 (36 个 单位 ) ,在 3 处 出 现 非 重 秋 的 重 绕 。 所 
以 我 们 可 以 估算 这 个 时 间 是 2731 + 14$r ;算法 D 相应 的 量 是 2681 + 2087 ,几乎 总 
要 低 些 。 
习题 23 证 明 ,在 每 个 阶段 ,路 段 的 输出 长 度 逐 次 为 
4,4,7,13,19 ,31,5$2 ,82 ,133 ,… (24) 
这 是 一 个 满足 规则 
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tf» = tn2 + 2t,_3+ ta (25) 
的 序列 ,如 果 认 为 当 nn 二 0 时 1, =1 的 话 。 通 过 像 我 们 在 等 式 (8) 中 对 于 标准 的 多 阶 
段 法 所 做 的 那样 ,来 考察 合并 数 的 串 ,我 们 也 可 以 分 析 虚 拟 路 段 的 最 优 设置 : 


级 T1 T2 T3 T4 T6 最 后 输出 于 

1 1 1 1 1 一 TS 

2 1 1 1 一 1 T4 

3 21 21 2 2 1 T3 

4 2221 222 222 22 2 T2 

5 23222 23222 2322 23 222 Tl 

6 333323222 33332322 333323 3333 2322 T6 

n A B, C， D E, T(k) 

nt+1 (A,E,.+1)B, (AE,+1)C, (A’E,+1)D, A‘E,+1 A, T(k-1) 
(26) 


其 中 A, = A;A,, 且 A 由 A 的 最 后 个 合并 数组 成 。 上 述 从 n 级 进行 到 n+1 级 
的 规则 对 于 满足 (22) 的 任何 方案 都 是 正确 的 。 当 我 们 用 (23) 来 定义 x 和 mw 时 ,可 以 
下 列 类 似 于 (9) 的 顾 简 单 的 方式 来 表达 串 A, ,… , EE， : 

A, = (W,_1W,_ 2 W, 3W,-4)+1 

B, = (W,-1W,-> W,-3)+ 1 

C, = (W,-1W,2)+1 

D, = (W,-_1)+1 


3 


E, = (W,_»W, 3)+1 (27) 
其 中 W, = (W,_3W,_aW,_».W,_3)+1 对 于 n>0 (28) 
Wuo=0 和 了 三 =: 对 于 ”< 0 


从 这 些 关 系 ,容易 对 6 条 磁带 的 情况 进行 详细 的 分 析 。 
一 般 说 来 , 当 有 全 之 5 条 磁带 时 ,我 们 令 已 = 全 -2, 而 且 通 过 规则 
Untl 二 Wai 二 Val Vy 
Un = Un-r-l tt Un-r lt + Vp+ vp 对 于 n 宇 0 
定义 序列 (,),《v,), 其 中 r=|LP/21;vo=1 且 对 nn<0,w,= v=0。 所 以 如 果 ww， 
= ww 十 v; , 则 我 们 有 
Wr = Wrz tt wa-p 对 于 n>>0 
(30) 


(29) 
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wo 二 1; 且 当 n<0 时 w=0。n+1 级 的 磁带 上 的 初始 分 布 是 : 置 w+ wi,-1+… 
+ w,_ p+ 个 路 段 到 磁带 k 上 ;1 二 有 二 PP, 以 及 置 ww,_-1+… + w,- ,个 路 段 到 磁 市 
直上 ;磁带 T-1 用 于 输入 。 然 后 当 磁 带 -1 正 被 重 绕 时 ,w 个 路 段 被 合并 到 本 
上 ,在 工 正 重 绕 时 ,vw, 个 路 段 被 合并 到 本 -1 上 ;当政 -2 正 重 绕 时 ,wu,_1 个 路 段 合 
并 到 本 -1 上 ,等 等 。 

当 S 不 太 小 时 , 表 6 示 出 了 这 一 过 程 的 近似 特性 。“ 扫 描 / 阶 段 " 列 近似 地 指出 
在 一 个 阶段 的 每 一 半期 间 ,整个 文件 中 有 多 少 正 在 被 重 绕 , 以 及 在 每 个 完全 的 阶段 ， 
此 文件 近似 地 有 多 少 正在 被 写 出 。 对 于 6 条 或 更 多 的 磁带 ,分 带 方法 是 比 标 准 多 阶 
段 法 要 好 的 ,而 且 对 于 5 条 磁带 或 许 也 是 这 样 ,至少 对 于 很 大 的 S 是 这 样 。 


表 6 使 用 分 磁带 的 多 阶段 合并 的 近似 行为 


2.83$3 in S+0.000 


2.078 in S+0.232 


2.078 in S$-0.170 


1.958 in S-0.408 


2.008 in S$—-0.762 


1.972 jn S—0.987 


2.013 in SS 一 1.300 


2.069 jn 9 一 3.164 


1.443 jn S+1.000 


0.929 In S+1.022 


0.732 In S+1.024 


0.670 In S+1.007 


0.624 in S+0.994 


0.595 ln S+0.967 


0.580 ljn S+0.941 


0.566 jn S+0.536 


.4142136 


.6180340 


.6180340 


.6663019 


.6454116 


.6604077 


.6433803 


1.6214947 





当 全 = 4 时 ,上 述 过 程 实际 上 就 等 价 于 平衡 的 两 路 合并 ,没有 重 人 重 绕 的 时 间 ， 
因为 对 所 有 的 ,+ 1 都 将 成 为 0。 所 以 略 加 修改 , 置 wm =0,x=0,oi=0,zxo= 
0,zo=1;, 和 对 于 2 志 2,z1=zi+uii=a-2+zm-2) 即 得 到 人 下 =4 的 表 6 
的 诸 项 。 这 导出 了 一 个 非常 有 趣 的 方案 (见习 题 25 和 26)。 


习题 


1. [16] 图 69 所 示 为 路 段 34 到 65 通过 算法 D 被 分 布 到 5 条 磁带 上 的 次 序 ; 问 路 段 1 到 33 
以 什么 次 序 分 布 ? 
着 2. [21 ] 真 或 假 :在 算法 D 中 的 两 个 合并 阶段 之 后 ( 即 在 我 们 第 二 次 达到 步骤 D6 时 ) ,所 有 的 
虚拟 路 段 都 已 经 消失 。 
> 3. [22 ] 证 明 在 步骤 D4 的 结果 处 ,条 件 D[1] 宇 D[2] 宇 … 宇 DLT] 总 是 满足 的 。 说 明 为 什么 
在 下 述 意 义 之 下 ,这 个 条 件 是 重要 的 , 即 :否则 步骤 D2 和 D3 就 不 能 有 效 工 作 。 
4. [M20] 导出 生成 函数 (7)。 
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5. [HM26 ] (E.P. Miles,Jr. ,1960) 对 于 所 有 p 之 2, 证 明 多 项 式 f,(z)= zx 一 xz? ?一 … 一 之 
-1 有 p 个 不 同 的 根 , 它 们 当中 恰 有 一 个 绝对 值 大 于 1{[ 提 示 : 考 虑 多 项 式 xz 六 一 2z? +1]。 

6. [HM24 ] 本 题 的 目的 是 考虑 如 何 来 编制 表 1、5 和 6。 假 定 我 们 有 一 个 合并 型 式 , 其 性 质 以 
下 列 方式 由 多 项 式 p(z) 和 q(x) 表征 :(i) 出 现在 要 求 n 个 合并 阶段 的 一 个 “完全 分 布 " 中 的 初始 
路 段 个 数 是 [xz”]p(z)/jg(z)。(ii) 在 这 个 合并 阶段 里 处 理 的 初始 路 段 个 数 是 [ z"]p(z)/gq(z)“。 
(ii) 有 q(xz ') 的 一 个 “最 大 ”的 根 a ,使 得 g(a ')=0,q'(a ') 关 0,pl(a ') 闫 0, 而 且 q(B8 1')=0 
蕴涵 着 B= a 或 |B|<|al。 

证 明 存 在 一 个 数 。 >0, 使 得 如 果 S 是 在 一 个 要 求 n 个 合并 阶段 的 完全 分 布 中 的 路 段 数 ,而 且 
如 果 在 这 些 阶段 中 处 理 了 pS 个 初始 路 段 , 则 我 们 有 n= alnS+6b+O(S '),o=clnS+dt+ 
O(S 人 ), 其 中 


一 -1 二 pl ) _ aa 
a= (lIna) ,b= aln( er ) 1,c 4 一 (0 
_ (b+l)a-p (oa )/p(a )+ q (a )/q' (a ') 


‘ ga!) 

7. [HM22 |] 设 a, 是 习题 5 中 多 项 式 f,(z) 的 最 大 的 根 , 问 当 一 co 时 ,a 的 渐 近 特性 是 什 
么 ? 

8. [M20] (E. Netto,1901) 设 Nb’) 是 把 m 表达 成 整数 11,2,…,p| 的 一 个 有 序 和 的 方式 
数 。 例 如 , 当 p=3 和 m=5 时 ,有 13 种 方式, 即 1+1+1+1+1=1+1+1+2=1+1+2+1=1 
+1+3=1+2+1+1=1+2+2=1+3+1=2+1+1+1=2+1+2=2+2+1=2+3=3+1+1= 
3+2。 证 明 Nb?) 是 一 个 广义 斐 波 那 契 数 。 

9. [M20] 设 K? 是 m 个 0 和 1 的 这 样 的 序列 的 个 数 , 即 其 中 没有 p 个 相 邻 的 1 出现。 例 
如 , 当 p=3 和 m=5 时 ,有 24 种 方式 :00000,00001,00010,00011,00100,00101,00110,01000， 
01001,… ,11011。 证 明 Ki 是 一 个 广义 斐 波 那 契 数 。 

10. [M27] (广义 斐 波 那 契 数 系 统 ) 证 明 每 一 个 非 负 整数 n 都 可 以 惟一 地 表示 为 不 同 的 p 阶 
斐 波 那 契 数 F” 之 和 ,j 宇 p, 而 且 这 个 表示 不 使 用 连续 的 训 个 斐 波 那 契 数 。 

11. [M24 ] 证 明 (12) 中 的 串 Qw 的 第 x 个 元 素 ,等 于 用 第 5 阶 裴 波 那 契 数 表 示 n -1 时 其 中 
不 同 斐 波 那 契 数 的 个 数 (参见 习题 10)。 

12. [M18 ] 试 求 矩 阵 


一 OO OO OD 
OO OO ORrPPM 
OO OP OO 
一 OP OD 
一 OO DD 


的 乘 方 与 (1) 中 的 完全 斐 波 那 契 分 布 之 间 的 联系 。 

13. [22 ] 证 明 完全 斐 波 那 契 分 布 的 下 列 相 当 奇 特 的 性 质 : 当 最 后 的 输出 在 了 号 磁带 上 时 ， 
则 在 每 个 其 它 磁带 上 的 路 段 数 都 是 奇数 ; 当 最 后 的 输出 在 不 同 于 了 的 某 个 磁带 上 时 , 则 在 该 磁 市 
上 的 路 段 数 将 是 奇 的 ,而 在 其 它 磁带 上 的 将 是 偶 的 [参见 (1)j]。 

14. [M35] 设 T(z)= Zi>oTz ,其 中 T(z) 是 在 (16) 中 定义 的 多 项 式 。 
a) 证 明 对 于 每 个 ,都 有 一 个 数 n(&) ,使 得 Tiy 夺 Ty 志 … 人 Tir>Tenk)+1) No 
b) 若 Tip 之 Tww 且 n < ,证 明 对 所 有 的 有 之 ,Ti 入 Tyo 
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c) 证 明 有 一 个 非 减 的 序列 (M,) ,使 得 当 M, 委 S< Mi 时 乙 ,(S)= minizl 志 (SS), 但 当 S 之 
AM, ri 时 之 (S)>minizl 之 /人 S)[ 参 见 (19)]。 

15. [M43j 证 明 或 否定 ,2 纪 ,_-1(m)< 之 名,(m) 意 味 着 2 (mm) 达 211(m) 太 2,12(m) 声 … 
[这 样 一 个 结果 将 大 大 地 简化 表 2 的 计算 ]。 

16. [M43 ] 确定 具有 最 优 虚拟 路 段 分 布 的 多 阶段 合并 的 渐 近 特性 。 

17. [32 ] 证 明 或 否定 :通过 把 一 个 路 段 ( 在 一 条 适当 的 磁带 上 ) 加 到 S 个 初始 路 段 的 分 布 上 ， 
来 形成 S+ 工 个 初始 路 段 的 分 布 ,这 个 方法 可 用 来 散布 一 个 最 优 多 阶段 分 布 的 路 段 。 

18. [30] 如果 我 们 坚持 初始 路 段 至 多 被 放置 在 工 -1 条 磁带 上 , 则 在 处 理 的 初始 路 段 个 数 
极 小 的 意义 下 ,最 优 多 阶段 分 布 是 否 产 生 最 好 的 合并 型 式 ( 忽 略 重 绕 时 间 )? 

19. [21 |] 试 对 6 条 磁带 上 的 Caron 多 阶段 排序 ,构造 类 似 于 (1) 的 一 张 表 。 

20. [M24 ] 对 6 条 磁带 上 的 Caron 多 阶段 排序 ,什么 生成 函数 对 应 于 (7) 和 (16)? 类 似 于 (9) 
和 (27) 的 什么 关系 定义 合并 数 的 串 ? 

21. [11] 在 (26) 中 的 第 7 级 上 ,将 出 现 什么 ? 

22. [ M21 ] 序列 (24) 的 每 一 项 近似 地 等 于 前 面 两 项 之 和 。 这 种 现象 对 于 序列 中 剩 下 的 数 是 
否 成 立 ? 氢 述 并 证 明 关 于 1, -二 -一 -的 一 个 定理 。 

P23. [29 |] 如 果 把 (23) 变 成 viy1 = 二 ui vari WoyUn 二 wi-2+ Wri3+ vr-3+ wa 
vw-4; 则 对 (25),(27) 和 (28) 应 做 什么 改变 ? 

24. [HM41 |] 当 把 ww 定义 为 妇 1+m + 二 p+z pp 的 前 5 项 之 和 时 , 试 对 各 种 P 
= 修 -2 及 0 二 gq 三 2P 计算 分 带 的 多 阶段 过 程 的 浙 近 特性 (正文 中 仅仅 处 理 9=2LP/24 的 情况 ; 
参见 习题 23)。 

25. [19] 说 明 :本 小 节 末 尾 提 到 的 在 4 条 磁带 上 的 分 带 多 阶段 合并 将 如 何 对 32 个 初始 路 段 
排序 (给 出 逐个 阶段 的 分 析 , 像 正文 中 82 个 路 段 的 6 条 磁带 的 例子 那样 ) 。 

26. [ M21 | 分 析 当 S=2” 和 当 S=2"+2” 时 ,在 4 条 磁带 上 的 分 带 多 阶段 合并 的 特性 ( 见 
习题 25) 。 

27. 【23 ] 在 一 个 完全 分 布 中 一 旦 初始 路 段 已 经 分 布 到 一 些 磁带 上 , 则 多 阶段 策略 只 不 过 是 
“合并 直到 空 ” :我们 从 所 有 非 空 输入 磁带 合并 路 段 ,直到 它们 之 一 变 成 空 的 为 止 ;然后 使 用 该 磁带 
作为 下 一 输出 磁带 ,并 且 让 以 前 的 输出 磁带 作为 输入 之 一 。 

是 否 不 论 初始 路 段 如 何 分 布 ,只 要 我 们 至 少 把 它们 分 布 到 两 条 磁带 上 , 则 这 个 合并 直到 空 的 
策略 就 总 能 完成 (当然 ,一 条 磁带 将 保持 为 空 ,以 便 它 能 作为 第 一 条 输出 磁带 )? 

28. [AM26 ] 上 边 的 习题 定义 了 一 族 相 当 广 泛 的 合并 型 式 ,说 明 在 下 列 意 义 下 多 阶段 法 是 其 
中 最 好 的 :如 果 有 6 条 磁带 ,而 且 如 果 我 们 考虑 所 有 这 样 的 初始 分 布 类 (a ,5,c,d,e), 在 这 个 类 中 
合并 直到 空 的 策略 要 求 最 多 个 阶段 来 进行 排序 , 则 a+5+c+d+e 二 1, ,其 中 1 是 对 于 多 阶 
段 排序 (1) 的 相应 的 值 。 

29. [M47|] 习题 28 说 明 ,在 极 少 阶段 的 意义 下 ,多 阶段 分 布 是 在 所 有 “合并 直到 成 为 空 ” 的 
型 式 中 最 优 的 ,但 是 在 极 少 扫 描 的 意义 下 它 也 是 最 优 的 吗 ? 

设 a 和 和 4 互 质 ,而 且 假 定 a+ 6 是 斐 波 那 契 数 F,。 证 明 或 否定 下 列 的 R.M. Karp 的 猜想 :在 
以 分 布 (a ,6b) 开 始 的 合并 直到 空 型 式 期 间 处 理 的 初始 路 段 数 ,大 于 或 等 于 ((n 一 5)F,;i1+ (2n++ 
2) PF)15( 当 a= FF-1,b= 下 -2 时 ,达到 此 数 )。 

30. [42 」 对 于 分 带 多 阶段 合并 , 试 编制 类 似 表 2 的 一 张 表 。 

31. [M22 ] (R.Kemp), 令 Ka(n) 是 这 样 的 n 节点 有 序 树 的 个 数 , 即 其 中 每 个 叶 到 根 的 距离 
为 4。 例 如,K3(8)=7, 因 为 有 下 列 的 树 : 
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证 明 天 (2 ) 是 一 个 广义 的 斐 波 那 契 数 ,并 求 这 样 的 树 和 在 习题 8 中 所 考虑 的 有 序 分 划 之 间 的 一 
一 对 应 。 


“5.4.3 级 联合 并 


另 一 个 称 为 “级 联合 并 "的 基本 型 式 ,实际 上 在 多 阶段 法 之 前 就 被 发 现 了 [B.K. 
Betz 和 W.C. Carter,ACM National Conf. 14(1959),Paper 14]。 沿 用 5.4.2 小 节 所 
给 出 的 记号 ,下 表 给 出 在 6 条 磁带 和 190 个 初始 路 段 的 情况 下 使 用 该 法 的 图 示 。 


T1 T2 T3 T4 T5 T6 处 理 的 初始 路 段 


扫描 1 155 1 141 1 1 一 190 
扫描 2 一 x 15 29 3 414 5 190 
扫描 3 155 144 123 9 x 1 一 190 
扫描 4 一 x 15! 29! 41! 50! $55! 190 
扫描 SS 190! 一 一 一 190 


一 个 级 联合 并 像 多 阶段 法 一 样 ,以 磁带 上 路 段 的 一 个 “完全 的 分 布 ?“ 开 始 , 尽 管 完 全 
分 布 的 规则 有 些 不 同 于 5.4.2 小 节 中 的 那些 。 表 中 的 每 一 行 表 示 对 所 有 数据 的 一 
次 完全 的 扫 摘 。 例 如 ,第 二 遍 扫 描 是 通过 对 1Tl,T2 ,T3 ,T4 ,T5 1 进行 一 次 五 路 合并 
到 T6, 直 到 T5 成 为 空 为 止 (这 把 相对 长 度 为 $ 的 15 个 路 段 放置 到 T6 上 ) ,然后 对 
IT1,T2 ,T3,T41 进 行 一 次 四 路 合并 到 TS ,然后 进行 三 路 合并 到 T4 ,然后 进行 两 路 
合并 到 T3 ,最 后 从 T1 进行 一 路 合并 (一 个 拷贝 操作 ) 到 T2。 第 三 遍 扫 描 与 此 类 似 ， 
首先 进行 一 次 五 路 合并 直到 1 条 磁带 变 空 为 止 ,然后 进行 一 次 四 路 合并 ,等 等 [也 
许 , 本 书 此 节 应 编号 为 5.4.3.2.1, 而 不 是 5.4.3]。 

显然 拷贝 操作 是 不 必要 的 , 故 可 以 省 略 它 们 。 然 而 ,实际 上 ,在 6 条 磁带 的 情况 
下 ,这 个 拷贝 仅仅 花费 总 时 间 的 很 小 的 一 部 分 。 在 上 面 的 表 中 以 星 号 标 出 的 项 目 ， 
就 是 简单 地 被 拷贝 的 那些 ;处 理 的 950 个 路 段 中 仅 有 25 个 是 这 种 类 型 的 。 大 多 数 
时 间 部 花费 在 五 路 合并 和 四 路 合并 上 。 

硅 与 多 阶段 法 进行 比较 , 则 第 一 个 印象 可 能 觉得 级 联 型 式 是 一 种 相当 拙劣 的 选 
择 , 因 为 标准 多 阶段 法 始终 使 用 全 -1 路 合并 ,而 级 联 则 使 用 下 -1 路 ,了 -2 路 ,T 
-3 路 ,等 等 。 但 事实 上 ,在 6 条 或 更 多 的 磁带 上 , 它 渐 近 地 比 多 阶段 法 更 好 ! 如 同 
我 们 已 经 在 5.4.2 小 节 中 发 现 的 ,一 个 高 阶 的 合并 并 不 保证 高 效 性 。 通 过 同 5.4.2 
小 节 中 类 似 的 表 的 类 比 , 表 1 示 出 了 级 联合 并 的 性 能 特征 。 
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表 1 级 联合 并 排序 的 近似 特性 
磁带 扫描 (有 找 贝 ) 扫描 (没有 拷贝 ) 增长 率 
3 2.078 In 9+0.672 1.304 In S+0.992 1.6180340 
4 1.233 ln S+0.754 1.102 ln $+0.820 2.2469796 
S 0.946 jn S+0.796 0.897 In S+0.800 2.8793852 
6 0.796 In S+0.821 0.773 ln S+0.808 3.5133371 
7 0.703 ln S+0.839 0.691 In S+0.822 4.1481149 
8 0.639 jn S+0.852 0.632 jn S+0.834 4.7833861 
9 0.592 In S+0.861 0.387 jn S+0.845 3.4189737 
10 0.339 In 9 二 0.869 0.552 jn S+0.854 6.0347828 
20 0.397 jn S+0.905 0.397 in S+0.901 12.4174426 


遂 过 由 最 后 的 状态 (1,0,…,0) 向 后 推演 ,容易 导出 对 于 一 个 级 联合 并 的 “完全 
分 布 "。 对 于 6 条 磁带 ,它们 是 


级 T1 T2 工 3 T4 T5 

0 1 0 0 0 0 

1 1 1 1 1 1 

2 3 4 3 2 1 

3 15 14 12 9 S 

4 $5 30 41 29 13 

5 190 174 146 105S $5 
es (1) 

n Qn b, Cn dr en 
ntl astb,stc tdite, astbitc td,s arntbitc, atb, a, 


注意 到 这 样 一 点 是 有 趣 的 , 即 这 些 数 的 相对 大 小 也 出 现在 一 个 正 2T-1 边 多 
边 形 的 对 角 线 之 中 。 例 如 ,图 73 的 11 边 形 中 的 5 条 对 角 线 有 非常 接近 于 190,175， 
146,105 和 55 的 相对 长 度 ! 我 们 将 在 这 一 小 节 的 稍 后 部 分 来 证 明 这 个 值得 注意 的 
事实 ,而且 我 们 也 将 看 到 ,花费 于 (下 -1 ) 路 合并 ,( 开 -2) 路 合并 ,…,1 路 合并 的 相 
对 时 间 近 似 地 和 这 些 对 角 线 长 度 的 平方 成 比例 。 

路 段 的 初始 分 布 当初 始 路 段 的 实际 数目 不 完全 时 ,我 们 可 以 像 通常 那样 插入 
虚拟 路 段 。 对 于 这 一 情况 的 粗略 分 析 指 出 ,分 派 虚拟 路 段 的 方法 是 无 所 谓 的 ,因为 
级 联合 并 通过 完整 的 扫描 进行 操作 ;如 果 我 们 有 190 个 初始 路 段 , 则 如 同上 面 的 例 
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图 73 级 联 数 的 几何 解释 


子 那样 每 个 记录 都 被 处 理 5 次 ,但 是 如 果 有 191 个 , 则 我 们 就 必须 上 升 一 级 使 得 每 
个 记录 都 被 处 理 6 次 。 幸 而 这 个 急剧 的 改变 并 非 真正 必需 ;David E. Ferguson 已 经 
找到 了 一 种 方法 来 分 配 初 始 路 段 ,使 得 在 第 一 趟 合并 期 间 的 许多 操作 都 归结 为 拷贝 
1 条 磁带 的 内 容 。 当 这 样 的 拷贝 关系 被 绕 开 ( 如 像 算 法 5.4.2D 中 那样 ,通过 简单 地 
改变 同 “物理 "设备 号 相关 的 “ 逻 得 "和 磁带 设备 号 ) 时 ,我 们 就 得 到 了 从 级 到 级 的 一 个 
相当 光滑 的 转换 ,如 图 74 所 示 。 

假设 (a ,5,c,d,e,) 是 一 个 完全 的 分 布 , 其 中 a 之 6 之 c 之 d 之 e。 通 过 重新 定义 
逻辑 磁带 和 物理 磁带 设备 之 间 的 对 应 ,我 们 可 以 想像 这 个 分 布 实际 上 是 (e,a,c,2， 
a) ,有 a 个 路 段 在 Ts 上 ,有 6 个 路 段 在 T4 上 ,等 等 。 下 一 个 完全 的 分 布 是 (a + 8 
+ct+d+e,a+b+c+t+d,a+b+c,a+b,a); 而 且 如 果 在 达到 下 一 级 之 前 已 经 穷 
尽 了 输入 , 则 我 们 假定 这 些 磁带 分 别 包 含 (Di,D,,D;,Ds,D;) 个 虚拟 路 段 ,其 中 

Da+bt+c+d,D,<a+b+c, Dat+b, Dial, Di;=0 

D1 之 D > Da 之 D4 > 站 (2) 
我 们 现在 可 以 自由 地 想像 虚拟 路 段 出 现在 这 些 磁带 上 的 任何 方便 的 位 置 。 假 定 第 
一 赵 合 并 扫描 通过 五 路 合并 产生 a 个 路 段 ,然后 通过 四 路 合并 产生 5b 个 路 段 ,等 等 。 
而 我 们 的 目标 是 安排 这 些 虚 拟 路 段 以 便 用 拷贝 来 代 符 合并 。 我 们 不 妨 按 如 下 方式 
来 做 第 一 趟 合并 扫描 : 

1. 如 果 Ds= a, 则 D1,D,,D;, Ds 中 每 一 个 都 减 去 a ,并 假定 TS 就 是 合并 的 
结果 。 如 果 D4<a, 从 磁带 Tl 到 TS5 合并 a 个 路 段 ,并 使 用 的 这 $ 条 磁带 上 的 极 小 
个 数 的 虚拟 路 段 ,使 得 Di ,D; ,Das,D4 的 新 值 满足 

Di 及 5+c+d,D, 过 +c,D; 过 5,D, = 0; 
站 之 D 之 .Di3 之 D4 (3) 
例如 ,如果 D;, 原来 二 5 + c, 则 在 这 一 步 我 们 不 使 用 来 自 它 的 虚拟 路 段 ,而 如 果 + 
c<D) 和 aa+p+c, 则 我 们 恰巧 使 用 其 中 的 D;， -=-c 个 。 
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图 74 具有 算法 DD 的 分 布 的 级 联合 并 的 效率 


2. (这 一 步 类 似 于 第 一 步 ,但 已 “ 移 位 ") 如 果 D3= 6。, 则 Dj,D,,D; 中 的 每 一 个 
都 减 去 5 ,而 且 设 想 T4 就 是 合并 的 结果 。 如 果 D3< 5, 则 从 磁带 Tl 到 T4 合并 6 
个 路 段 ,必要 时 减少 虚拟 路 段 数 以 使 得 

DI 三 b5+c,D; 夺 5,D3= 0; Di>>D > 之 D3 

3. 等 等 。 

Ferguson 的 分 布 路 段 到 磁带 的 方法 ,可 以 通过 考察 (1) 中 从 第 3 级 进行 到 第 4 
级 的 过 程 来 说 明 。 人 假设“ 逻辑 "磁带 (T1,…,T5) 分 别 包 含 (5,9,12,14,15) 个 路 段 ， 
而 旦 我 们 最 终 要 把 它 变 成 为 (55,50,41,29,15)。 这 个 过 程 可 以 概括 为 如 表 2 所 列 。 
我 们 首先 放置 9 个 路 段 于 Tl 上 ,然后 置 (3,12) 到 Tl 和 T2 上 ,等 等 。 如 采 在 比如 
说 步骤 (3,2) 期 间 输 入 已 经 穷尽 , 则 “节省 的 数量 "是 15+ 9+5, 意 味 着 通过 分 配 虚 
拟 路 段 而 避免 了 15 个 路 段 的 五 路 合并 ,9 个 路 段 的 两 路 合并 ,以 及 5 个 路 段 的 一 路 
合并 。 换 句 话 说 ,在 第 一 合并 阶段 出 现 于 第 3 级 的 路 段 中 ,有 15+9+5 个 不 予 处 
pe 

以 下 的 算法 详细 地 定义 了 这 一 进程 。 

:BAP 
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表 2 级 联 分 布 步骤 举例 
加 到 T1 加 到 T2 加 到 T3 加 到 T4 加 到 T5 “节省 的 数量 ” 
15+14+12+5 
15+14+9+5 
15+14+5 
15+12+5 
15+9+5 
15+5 
14+5 
12+5 
9+5 
5 
算法 C (具有 特殊 分 布 的 级 联合 并 排序 ) 这 个 算法 取 初 始 的 路 段 并 把 它们 分 
散 到 磁带 上 ,一 次 一 个 路 段 , 直 到 提供 的 初始 路 段 被 穷尽 为 上 。 然 后 它 确定 诸 磁 带 
如 何 被 合并 ,假定 有 T 之 3 台 可 供 利用 的 磁带 机 ,同时 至 多 利用 全 -1 路 合并 ,并 避 
免 不 必 要 的 一 路 合并 。 磁 带 TT 可 用 来 保留 输入 ,因为 它 不 接受 任何 初始 的 路 段 。 
AL ,1 入 7 委 工 :我 们 最 近 达 到 的 完全 级 联 分 布 。 
RARA[ 7 ,1 委 ) 委 了 工 : 我 们 正在 争取 的 完全 级 联 分 布 。 
DL jj],1 专 ; 志 全 :假定 在 设备 号 为 ; 的 逻辑 磁带 上 要 出 现 的 虚拟 路 段 数 。 
MLj1,1 志 ;< 个 :在 设备 号 为 ; 的 逻辑 磁带 上 希望 的 极 大 虚拟 路 段 数 。 
TAPE| ) ] ,1 委 ) 委 工 :对 应 于 逻辑 磁带 设备 号 j 的 物理 磁带 设备 号 。 


Cl.[ 初 始 化 】 对 于 2 委 & 委 工 置 ALE<RARALAE]<D[R < 一 0; 并 置 A[1]<0,AA 
[1j<1,DLI< 一 1。 对 于 1 委 & 委 全 置 TAPE[&]<-k。 最 后 , 置 ;< 人 工 -2,7 一 
1,k< 一 1,1<0,m<1, 并 转 到 步骤 C53( 这 一 处 理 手段 是 通过 给 控制 变量 赋 适 
当 的 值 ,以 便 直 接 跳 人 内 循环 ,从 而 一 举 启动 整个 过 程 的 一 种 办 法 )。 

C2. [开始 新 的 一 级 ] (我 们 刚才 已 经 达到 一 个 完全 的 分 布 ,而 且 由 于 还 有 更 
多 的 输入 ,我们 必须 为 下 一 级 做 好 准备 ) 1 增 1, 对 于 1 三 三 T 置 ALk] 一 
AAL[ |] ,然后 对 于 有 =1,2,…, 丁 一 1, 以 这 个 顺序 置 AA[ Tk]<AA[ 人 一 & 
+1] A[&k]。 置 (TAPE[1],:…,TAPE[T -1])<— (TAPE[T-1],.……, 
TAPE|1]), 并 对 于 1 三 < 个 置 D[k]<AA[k+1]。 最 后 置 i<-1。 

C3. [开始 第 i 个 子 级 ] 置 ;一 i( 变 量 i 和 ;表示 表 2 所 示例 子 中 的 “步骤 (i， 
j)")。 

C4. [开始 步骤 (i,;)] 置 上 < 和 和 和 ALT- 1。 如 果 和 加 =0 和 1i=) 则 
. 置 i 一 -2 并 返回 C3; 如果 m=0 和 i 关 ;, 则 返回 C2( 变 量 m 表示 有 待 
写 到 TAPEL[&] 上 的 路 段 数 ;m=0 仪 当 /=1 时 才 出 现 )。 

C5. [输入 到 TAPE[k]] 写 一 个 路 段 到 号 码 为 TAPE|& |] 的 磁带 ,日 DL&] 减 1。 
然后 如 果 输 入 已 穷尽 , 则 重 绕 所 有 的 磁带 并 转 到 步骤 C7。 
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C6. [推进 ] nm 减 1。 如 果 m.>0, 则 返回 C5。 否 则 减 1; 如 果 &>0, 则 和 置 x 一 
A[ 荆 ~-j~1] 一 A[ 人 了 -jj, 并 且 若 m>0, 则 返回 C5。 否则 j 减 1; 如果;j>>0， 
则 转 到 G4。 否则 i 加 1; 如果 i<< 修 -1, 则 返回 C3。 否则 转 回 C2。 

C7. [准备 合并 ] (这 时 初始 分 布 已 经 完成 ,而 且 AA、D 和 TAPE 诸 表 描述 了 磁 
带 的 现状 ) 对 于 1 二 < 全 置 M[k]< 一 AA[k+1], 并 置 FIRST<-1( 变 量 FIRST 
只 在 第 一 趟 合并 扫描 期 间 非 0)。 

C8. [级 联 ] ”如果 7 =0, 则 停 上 ;排序 完成 并 输出 在 TAPEL1j] 上 。 否 则 ,以 p= 
一 1, 了 一 2,…,1 这 个 次 序 ,进行 从 TAPE[1],…,TAPE[p] 到 TAPE[p+1] 
的 p 路 合并 如 下 :如果 p=1, 则 通过 简单 地 重 绕 TAPE[2 j ,模拟 一 路 合并 ， 
然后 交换 TARPE[1]j 一 TRPE[2]。 和 否则 如 果 FIRST=1 且 DLp -1]=M[p 一 1]， 
则 通过 简单 地 交换 TAPE| p ]**>TAPE| p +1|, 重 绕 TAPEL p |], 并 从 每 个 DL1]， 
…,D[p 一 1],M[1],…,M[ pp 一 1] 都 减 去 MIL pp 一 1j], 模 拟 p 路 合并 。 否 则 从 
每 个 M[1],…,M[p 一 1] 减 去 M[p -1]。 然 后 从 每 个 满足 1 三 ;过 pp 且 使 
DL 7 二 ML; | 的 TAPE| ;| 合并 一 个 路 段 ;从 每 个 满足 1 三 三 pp 且 使 DLj] > 
M[;] 的 D[j] 减 1; 并 且 置 输出 路 段 到 TAPE[p +1] 上 。 继 续 进 行 这 一 动作 
直到 TAPE( pp) 成 为 空 为 目 。 然 后 重 绕 TAPEL p ] 和 TAPE| p+1]。 

C9. [下 降 一 级 ] /1 减 1, 置 FIRST<-0, 有 日置 (TAPE|[1],:…,TAPE[ 人 下 |]) 一 
(TAPE[ 个],… ,TAPE[1])( 这 时 ,所 有 的 DD 和 M 和 缘 为 0, 而 且 将 保持 如 此 )。 
返回 C8。 | 

此 算法 的 C1 一 C6 步 进行 分 布 , 而 C7 一 C9 步 进行 合并 ;这 两 个 部 分 彼此 是 完全 

独立 的 ,而 且 将 有 可 能 在 相同 的 存储 单元 中 来 保存 ML 和 AALk+1]。 






C2. 开始 新 一 级 


C3. 开 始 第 i 子 级 


C4. 开始 步 台 (i, 7) > 


输入 完成 
C7. 准备 合并 
mm FE 
排序 完成 


图 75 具有 特殊 分 布 的 级 联合 并 
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级 联合 并 的 分 析 比 起 多 阶段 的 情况 来 ,级 联合 并 有 些 难 以 分 析 , 但 由 于 出 现 
了 许多 引 人 注 意 的 公式 ,因而 这 个 分 析 是 特别 有 趣 的 。 建 议 喜 欢 离 散 数 学 的 读者 ， 
在 进一步 阅读 之 前 ,自己 先 来 研究 级 联 分 布 ,因为 这 些 数 具 有 那么 多 不 如 第 的 性 质 ， 
去 发 现 它们 是 一 件 快 事 。 在 这 里 ,我 们 将 讨论 众多 分 析 方 法 之 一 ,并 且 强 调 可 以 发 
现 结果 的 方法 。 

为 了 方便 ,我 们 考虑 6 个 磁带 的 情况 ,并 找 出 可 以 推广 到 所 有 了 的 公式 ,关系 
(1) 导 出 第 一 个 基本 的 模式 : 


六 = Qa, — en-! 
= a, -an = (5) — (5)an: 
cc 二 0 一 al 
-| = (3) et (oe 
d, = Cc, — Ci 
0 
e = d, — b,_i 
es 
(4) 
设 A(z) = 2 air ,E(xz) = 2 ,soewx”, 并 定义 多 项 式 
EO 


(4) 的 结果 可 概括 如 下 :生成 函数 B(z) 一 gqi(z)A(z),C(z)- gp(z)A(z)， 
D(z)-g3(z)A(z) 和 EE(z) 一 qs(z)A(z) 简 化 为 对 应 于 a-1,a-2,a-3… 的 值 的 
有 限 和 ,对 于 小 的 n ,它们 出 现在 (4) 中 但 不 出 现在 A(z) 中 。 为 了 提供 适当 的 边 鹤 
条 件 ,让 我 们 向 后 往 负 的 方向 向 后 运行 递归 式 直 到 一 8 级 : 


n Qa b, Cy, d, e» 
0 1 0 0 0 0 
—1 0 0 0 0 1 
一 了 1 一 1 0 0 0 
一 3 0 0 0 一 二 2 
一 4 2 一 3 1 0 0 
一 0 0 1 一 4 9 
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-6 S 一 9 3 一 工 0 
一 7 0 一 1 0 一 14 14 
一 14 一 28 20 一 7 1 


在 7 个 磁 珊 上 ,这 张 表 也 是 类 似 的 ,只 是 奇数 ”的 项 右 移 一 列 。 序 列 aq,a va _ ，， 
“三 1,1,2,5,14,… 对 于 计算 机 科学 家 来 说 是 司空 见 惯 的 ,因为 它 同 如 此 多 的 递归 
算法 相关 联 而 出 现 (例如 习题 2.2.1-4 和 等 式 2.3.4.4-(14)); 我 们 因此 猜想 在 T- 
磁带 的 情况 下 





_ /2n 1 
av = 对 于 0 过 nn 三 TT-2 (6) 


aa 1=0 对 于 0 过 n 达 TT-3 
为 了 验证 这 个 选择 是 正确 的 ,只 要 证 明 (6) 和 (4) 对 于 第 0 级 和 第 1 级 产生 正确 的 结 
采 即 可 。 在 第 1 级 上 ,这 是 显然 的 ,而 在 第 0 级 上 ,我们 要 对 0 过 和 委 工 -2 ,验证 


je 





0 2 4 6 
2 二 m0 (7) 


凶 而 这 个 和 可 以 通过 标准 的 技术 来 求 值 ;事实 上 , 它 是 1.2.6 小 节 的 例 2。 
现在 我 们 可 以 计算 B(z) 一 gi(z)A(z) 等 的 系数 。 例 如 , 考 虚 D(z)- 
93(z)A(z) 中 z*” 的 系数 :由 1.2.6 小 节 中 例 3 的 结果 , 它 是 


> m (Dr -as = ” 1 (CD | 








2m + 2k to \ 2m + 2k k k+l 
2+m 3+m 
De 
) 270 一 工 2m / 
中 
m+l 
(Do 人 


因此 我 们 已 经 推出 
A(z) = go(z)A(z) 
B(z) = gi(z)A(z) —- go(z) C(z) = gp(z)A(z)— gi(z) 
D(z) = gq3(z)A(z) — gs(z) E(z) = gi(z)A(z)— ga3(z) (8) 
进而 我 们 有 e, 141= a;; 因 此 xzA(z)=E(z), 而 且 
A(z) = g3(z)/(gs(z) — z) (9) 
借助 于 g 多 项 式 ,现在 已 经 推导 出 了 生成 函数 ,因而 我 们 想 要 对 g 有 更 好 的 了 
解 。 习 题 1.2.9-15 在 这 方面 是 有 用 的 ,因为 它 给 了 我 们 一 个 “封闭 的 ”形式 , 它 可 以 
写成 
g(x) = ((V4— zx’ +iz)/2)™tl + ((V4— xz 一 iz)/2)2m+1 
V4— xz’ 


(10) 
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如 果 我 们 现在 置 x>=2sin0 则 一 切 都 简化 了 : 


. (cos 0+i sin 0)*™+1 + (cos 0 —isin OO)™!! cos(2m + 1)0 
qm(2 sin 0) = 2cos 0 cos 0 





(11) 
这 种 巧合 导致 我 们 猜想 多 项 式 g,,(z) 在 数学 上 是 已 知 的 ;确实 ,看 一 下 适当 的 
表 将 发 现 , oa, (z) 实 质 上 是 第 二 类 的 契 比 雪夫 多 项 式 , 即 是 通常 符号 下 的 
(1 Us (2)s 
我 们 现在 可 以 确定 (9) 中 分 母 的 根 :gs (2 sin 09)=2 sin 9 归结 为 
cos 90 = 2 sin 0 cos 0 = sin 20 


+ 90=20+ (27 a 时 ,我 们 能 得 到 这 个 关系 式 的 解 ;而 且 若 cos 6=0, 则 所 有 


这 样 的 9 都 提供 (9) 中 分 母 的 根 ( 当 cos 6=0 时 ,gq, (+2)= 土 (2m +1) 决 不 等 于 
土 2)。 因 此 得 到 gy(z) 一 z=0 的 下 列 8 个 不 同 的 根 : 


2Sin = 2Sin 2 站 2sin A 


14 14 14 22 


2sin = 2sin I ~~nX, 2sin ee Zi 


9 
22 22 22 2 
由 于 gs(z) 是 8 次 多 项 式 ,这 已 枚 举 了 所 有 的 根 。 这 些 值 的 前 3 个 值 使 得 g3(z)= 
0, 所 以 g3(z) 和 qs(z) 一 xz 有 一 个 三 次 多 项 式 作 为 公 因 子 。 如 果 我 们 展开 (9) 为 部 
分 分 式 , 则 其 余 5 个 根 支 配 了 A(z) 的 系数 的 渐 近 特性 。 
在 考虑 一 般 的 工 -磁带 的 情况 下 , 令 = (4&+1)r4 开 -2)。 了 磁带 级 联 分 布 
数 的 生成 函数 A(z) 取 形式 (见习 题 8) 


4 cos 0, 





TE 12 
< 上 一 2 1 — z/(2sin 6 ) J 
因此 
让 © ?PY (13) 
De ^\2sin 0 
等 式 (8) 现 在 导致 类 似 的 公式 
4 1 6 
DY cos OQ; cos 30 Bam 
2 和 A‘ ^《\2sin 0 
4 1 g 
Cn 二 cos Ocos 30 | (14) 
2 一 工 rpLR<UT2 “ \2sin 0 


4 | ey 
d, = FT > cos Oscos 70. | 


-TI12<&A<LT/2j 
等 等 。 习 题 9 说明 对 于 所 有 nn 之 0 而 不 仅仅 对 于 大 的 n ,这些 等 式 都 成 立 。 在 每 个 
和 式 中 ,k=0 的 项 高 于 所 有 其 余 的 项 ,特别 是 当 n 相当 大 时 ;因此 “增长 率 " 为 
1 1 


一 二 下 -一 S 
2sin Oo = CT ) (15) 





0 
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W.C.Carter 首先 分 析 了 级 联 排 序 [Proc. IFIP Congress (1962) ,62 一 66] ,他 得 
到 了 对 于 小 的 了 的 数值 结果 ,David E. Ferguson 也 进行 了 分 析 [ 见 CACM 7(1964)， 
297] ,他 发 现 了 增长 率 的 渐 近 特性 (1$) 中 的 前 两 项 。1964 年 夏 ,R. 双 .Floyd 发 现 了 
增长 率 的 明显 的 形式 1/(2 sin 6), 于 是 对 于 所 有 的 了 都 可 以 使 用 准确 的 公式 。 
G.N.Raney 独 立 进 行 了 级 联 数 的 一 个 深入 细致 的 分 析 [Canadian J. Math. 18(1966 ) ， 
332 一 349] ,他 以 与 排序 毫 无 关系 的 完全 不 同 的 方式 来 研究 它们 。Raney 观察 了 图 
73 的 “对 角 线 比率 "原理, 而且 导出 了 这 些 数 的 许多 其 它 有 趣 性 质 。Floyd 和 Raney 
在 他 们 的 证 明 中 使 用 了 和 矩阵 处 理 ( 见 习题 6)。 


级 联 排序 的 修改 ”如 果 再 加 上 一 条 磁带 , 则 在 级 联 排 序 期 间 , 就 有 可 能 覆盖 几 
乎 所 有 的 重 绕 时 间 。 例 如 ,我 们 可 以 把 TI 一 TS 合并 到 T7 ,然后 合并 T1 一 T4 到 
T6 ,然后 合并 Tl 一 T3 到 TS5( 它 现在 已 被 重 绕 ) ,然后 合并 T1~T2 到 T4, 而 当 已 经 
重 经 了 T4 上 的 比较 短 的 数据 时 , 即 可 开始 下 越 扫描。 从 对 级 联 的 上 述 分 析 中 , 即 可 
预测 这 一 过 程 的 效率 (关于 进一步 的 信息 见 5.4.6 小 节 )。 

在 CACM 6(1963),585 一 587 中 ,D.E.Knuth 提出 了 一 个 “ 折 中 合并 ”的 方案 , 它 
包括 多 阶段 和 级 联 两 者 作为 特殊 情况 。 每 个 阶段 都 由 工 -1 路 ,下 -2 路 ,…，,P 路 
合并 组 成 ,其 中 已 是 1 和 熙 -1 之 间 的 任何 固定 数 。 当 已 =T 开 -1 时 ,这 是 多 阶段 
的 。 而 当 P=1 时 , 它 是 纯粹 的 级 联 。 当 P=2 时 , 它 是 没有 拷贝 阶段 的 级 联 。 
C.E.Radke 已 经 对 这 个 方案 进行 了 分 析 [IBM Systems JS(1966),226 一 247]。 
W.H. Burge 也 进行 了 分 析 [Proc IFIP Congress (1971),1,454 一 459]。Burge 找到 了 
对 于 每 个 (P, 人 下) 折 中 合并 的 生成 函数 > T, (xz)z”, 并 推广 了 等 式 5.4.2-(16); 他 证 
明 , 当 S 一 co 时 ,从 作为 S 的 一 个 函数 来 处 理 的 最 少 初始 路 段 的 观点 (利用 一 个 直 截 
了 妆 的 分 布 方案 ,并 忽略 重 绕 时 间 ), 则 对 于 全 = (3,4,5,6,7,8,9,10,11),P 的 最 好 
值 分 别 为 (2,3,3,4,4,4,3,3,4)。 当 工 增 加 时 P 的 这 些 值 更 接近 于 级 联 而 不 是 更 
接近 于 多 阶段 ;由 此 得 出 , 折 中 合并 决 不 实质 性 地 好 于 级 联 。 另 一 方面 ,如 同 5.4.2 
小 节 所 述 ,在 选择 最 优 的 级 数 和 最 优 的 虚拟 路 段 分 布 的 情况 下 ,纯粹 的 多 阶段 法 侯 
乎 在 所 有 折 中 合并 中 是 最 好 的 。 不 幸 的 是 ,最 优 分 布 比较 难以 实现 。 

Th.L.JohnsenLBIT6(1966) ,129 一 1431 人 研究 了 平衡 的 和 多 阶段 合并 的 组 合 ; 
M.A. Goetz 提出 平衡 合并 的 一 个 重 绕 重 蕉 的 变种 [LDigital Computer User’s Hand- 
book, M. Klerer 和 G.A.Korn 编 (NewYork: McGraw-Hill,1967) ,1.311 一 1.312 ] ; 另 
外 ,还 可 以 想像 出 许多 其 它 混合 的 方案 。 


习题 


1. [10] 利用 表 1, 试 比较 级 联合 并 和 5.4.2 小 节 中 所 述 的 多 阶段 法 的 分 带 方 案 。 问 哪 一 个 
更 好 (忽略 重 绕 时 间 )? 
> 2. [22] 比较 在 3 条 磁带 上 利用 算法 C 的 级 联 排 序 和 利用 算法 5.4.2D 的 多 阶段 的 排序 , 它 
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们 之 间 有 什么 类 似 性 和 和 差别? 

3. [231 编制 一 张 表 ,说 明 当 在 6 条 磁带 上 利用 算法 C 对 100 个 初始 路 段 排序 时 所 发 生 的 情 
沈 。 

4. [M20] (G.N.Raney) 一 个 “第 ?> 级 级 联 分 布 " 是 如 下 定义 的 多 重 集 合 ( 在 6 条 磁带 的 情 
况 下 ):i1,0,0,0,01 是 第 0 级 级 联 分 布 ;而 且 如 果 |a,b,c,d,el 是 第 n 级 级 联 分 布 , 则 [a+ b+c 
+d+e,a+bt+ctd,a+b+c,a+b,al 是 第 n+1 级 级 联 分 布 ( 因 为 一 个 多 重 集合 是 未 排序 
的 ,从 单单 一 个 第 级 的 分 布 可 以 形成 达 51 种 不 同 的 第 (nn +1) 级 分 布 )。(a) 证 明 , 互 质 整 数 的 
任何 多 重 集合 {a ,b,c,d ,el ,都 是 对 于 某 个 n 的 第 n 级 级 联 分 布 。(b) 证 明 , 在 下 列 意义 下 ,对 于 
级 联 排序 定义 的 分 布 是 最 优 的 , 即 如 果 ja,p,c,d,el 是 使 a 宇 6 之 c 之 4 之 e 的 任何 第 n 级 分 布 , 则 
我 们 有 a 志 a; ,5 委 吕 ,Cc 志 c,d 志 d,,e 三 ei, 其 中 a, ,6; ,cs,dy;en| 是 在 (1) 中 定义 的 分 布 。 

> 5. [20] 证 明 (1) 中 定义 的 级 联 数 满足 定律 
aa p+ beb, p+ ccn +add e+ete kt = ar 对 于 0 过 kn 

提示 :通过 考虑 在 一 个 完整 的 级 联 排序 的 第 趟 扫描 期 间 , 共 输出 了 多 少 各 种 长 度 的 路 段 ， 
来 解释 这 个 关系 式 。 

6. [M20] 求 一 个 Sx5 和 矩阵 Q ,使 得 对 于 所 有 nn 之 0, Q” 的 第 一 行 包含 6 条 磁带 的 级 联 数 
a ,sO ,Cn sd Eno 

7. [M20 ] 假定 级 联合 并 被 应 用 于 a, 个 初始 路 段 的 一 个 完全 分 布 , 试 求 当 禁止 一 路 合并 时 
所 节省 下 的 工作 量 的 公式 。 

8. LHM23 ] 推导 (12)。 

9. LHM26 ] 推导 (14)。 

》10. [HM28 ] 不 使 用 型 式 (4) 来 开始 级 联 数 的 研究 ,而 由 恒等式 


/1 
en 一 Qn-l 加 
2 3 
d, = Zan-1 ~ €n—2 一 je- (3 a 
3 4 3 
Cn= 3an -1 一 dn-2 — 2en-2 = Da- 一 1 ja- 一 [ja 


等 开始 , 令 


用 这 些 > 多 项 式 来 表达 A(z),B(z) ,等 等 。 
11. LM38] 设 
0) = S(O) rng 
证 明 , 丁 -磁带 级 联 数 的 生成 函数 A(z) 等 于 fr-3(z)/fr-1(z), 其 中 这 个 表达 式 中 的 分 子 和 分 母 
没有 公 因 子 。 

12. [ M40 ] 证 明 在 下 面 的 意义 下 ,Ferguson 的 分 布 方案 是 最 优 的 。 即 在 第 一 次 扫描 期 间 任 何 
满足 (2) 的 分 配 虚拟 路 段 的 方法 ,都 不 能 减少 需要 处 理 的 初始 路 段 个 数 ,假定 在 这 个 扫描 期 间 使 用 
步骤 C7 一 09 的 策略 。 

13. [40] 正文 中 提议 通过 增加 一 条 额外 的 磁带 来 覆盖 大 多 数 重 绕 时 间 。 试 神 析 这 个 思想 
(例如 ,正文 中 的 方案 包含 等 候 T4 重 绕 ; 如 果 从 下 次 扫描 的 第 一 个 合并 阶段 省 略 T4, 是 否 将 更 好 


些 )。 
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“$5.4.4 回 后 读 带 


许多 磁带 机 都 有 从 同 写 入 的 方向 相反 的 方向 来 读 带 的 能 力 。 我 们 迄今 遇 到 的 
合并 型 总 是 以 “向 前 ”的 方向 把 信息 写 到 磁带 上 ,然后 重 绕 磁带 ,向 前 读 , 然 后 再 次 重 
绕 它 (因此 磁带 文件 像 队 列 那样 ,以 先进 先 出 的 方式 来 操作 )。 而 向 后 读 允 许 我 们 消 
除 上 面 的 两 个 重 绕 操作 : 即 我 们 向 前 写 磁 带 和 向 后 读 它 。 在 这 种 情况 下 ,文件 像 栈 
那样 处 理 ,因为 它们 以 后 进 先 出 的 方式 被 使 用 。 

平衡 的 、 多 阶段 的 ,以 及 级 联合 并 型 式 都 能 够 适应 向 后 读 。 主 要 差别 是 , 当 我 们 
癌 后 读 和 和 向 前 写 时 ,合并 颠倒 了 路 段 的 顺序 。 如 果 两 个 路 段 在 磁带 上 有 递增 的 次 
序 , 则 我 们 在 向 后 读 时 可 以 合并 它们 ,但 这 产生 了 递 降 的 次 序 。 这 样 产生 的 递 降 的 
次 序 ,在 下 次 扫描 时 将 随 继 变 成 为 递增 的 次 序 , 所 以 合并 算法 必须 有 能 力 来 处 理 递 
增 或 递 降 次 序 的 路 段 。 一 个 第 一 次 向 后 读 的 程序 员 会 经 常 感到 他 自己 是 倒立 着 的 ! 

作为 向 后 读 的 一 个 例子 ,考虑 利用 平衡 合并 在 4 条 磁带 上 合并 8 个 初始 路 段 。 
这 些 操作 可 以 综述 如 下 : 


T1 T2 T3 T4 
扫描 1 AlAiAi1A! AAAIAi 一 一 初始 分 布 
扫描 2 一 一 D, DD, DD, 合并 到 T3 和 T4 
扫描 3 A4 A4 一 一 合并 到 TI 和 T2 
扫描 4 一 一 Ds: 一 最 后 合并 到 T3 


这 里 A, 代表 相对 长 度 为 > 的 路 段 , 如 果 像 我 们 以 前 的 例子 那样 向 前 读 这 条 磁带 , 则 
它 的 次 序 是 递增 的 ; 疡 , 代表 长 度 为 > 的 递 降 的 相应 路 段 。 在 第 2 次 扫描 期 间 递 增 
的 路 段 变 成 递 降 的 ;在 输入 时 它们 表现 为 递 降 的 ,因为 我 们 在 向 后 读 。 在 第 3 次 扫 
描 时 ,它们 又 转换 了 方向 。 

注意 ,上 边 的 过 程 以 按 递 降 次 序 出 现在 磁带 T3 上 而 结束 。 如 果 这 样 不 行 (依赖 
于 输出 是 否 同 后 读 , 还 是 被 皂 下 并 取 走 以 供 将 来 使 用 ) , 则 我 们 可 以 把 它 拷贝 到 另 一 
条 磁带 上 ,同时 逆转 方向 。 一 种 较 快 的 方式 是 在 第 3 次 扫描 后 重 绕 Tl 和 T2 ,并 且 
在 第 4 次 扫描 时 产生 Ag。 还 有 一 种 更 快 的 方式 是 在 第 一 次 扫描 期 间 从 8 个 递 降 路 
段 开始 ,因为 这 将 交换 所 有 的 A 和 成 。 然 而 ,对 于 16 个 初始 路 段 的 平衡 的 合并 将 要 
求 初始 路 段 是 递增 的 ;而 且 由 于 我 们 通常 预先 并 不 知道 将 形成 多 少 初始 路 段 , 因 此 
有 必要 来 选择 一 个 一 致 的 方向 。 所 以 ,在 第 3 次 扫描 之 后 重 绕 的 思想 ,大 概 是 最 好 


的 。 
级 联合 并 以 相同 的 方式 进行 。 例 如 ,考虑 在 4 条 磁带 上 对 14 个 初始 路 段 排序 : 
T1 工 2 13 工 4 
扫描 1 4I4AIAAIA AIA4I414A AiA1Ai 一 
扫描 2 一 Di D,D, D;D;3D; 
扫描 3 As A; A; 一 
扫描 4 一 一 一 Da 
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又 是 如 此 :如 果 我 们 恰 在 最 后 一 次 扫描 之 前 重 绕 T1 ,T2 ,T3 , 则 我 们 可 以 产生 Ai4 而 
不 是 Di4。 注 意 , 在 所 有 的 一 路 合并 都 已 明显 执行 的 意义 下 ,这 是 一 个 “纯粹 的 ?级 
联合 并 ,如果 刚才 像 算 法 5.4.3C 那样 禁止 拷贝 操作 , 则 在 第 2 次 扫描 后 我 们 将 面临 
情况 
Ai1 D,D, 门 3 也 3 D3 

而 且 已 不 可 能 继续 三 路 合并 ,因为 我 们 不 可 能 合并 处 于 相反 方向 的 路 段 ! 如 果 我 们 
重 绕 TI 而 且 在 下 一 个 合并 期 间 向 前 读 它 ( 同 时 向 后 读 T3 和 T4) , 则 可 避免 拷贝 Tl 
到 T2 的 操作 。 但 在 合并 之 后 再 次 需要 重 绕 Tl, 所 以 这 技巧 以 两 次 重 绕 来 交换 一 次 
拷贝 。 

因此 算法 5.4.3.C 的 分 布 方法 对 于 向 后 读 并 不 像 品 前 读 那 样 有 效 ; 每 当初 始 路 
段 数 通 过 一 个 “完全 "的 级 联 分 布 数 时 ,所 需要 的 时 间 数 量 有 一 颇 为 急剧 的 跳 芭 。 另 
一 种 散布 的 技术 可 用 来 给 出 在 完全 的 级 联 分 布 之 间 的 一 个 更 为 光滑 的 转换 (见习 题 
17) 。 


向 后 读 的 多 阶段 法 ” 乍 一 看 去 (甚至 第 二 次 和 第 三 次 看 去 ) ,多 阶段 合并 方案 似 
乎 完全 不 适合 于 向 后 读 。 例 如 ,假设 有 13 个 初始 路 段 和 3 条 磁带 : 
工 | 工 2 工 3 
阶段 1 AAAIAIAT AIAAAIAIAIAIA， 一 
阶段 2 AlAlA1 D; D,D;, D,D, 
现在 我 们 停 住 ;我 们 可 以 重 绕 T2 或 T3, 然 后 向 前 读 它 ,同时 向 后 读 其 它 磁 带 , 但 这 
将 得 到 顾 为 混杂 的 情况 ,而 且 通 过 向 后 读 我 们 效益 顾 小 。 
一 种 弥补 这 种 情况 的 巧妙 想法 是 交 攻 每 条 磁 市 上 的 路 段 方向 。 这 样 ,合并 即 可 
完全 同步 地 进行 : 


Ti 1 1 
阶段 1 AiDi1A1D1Al DiADI4ADIAIDIA: 一 
阶段 2 一 DiAIDi D2A2D2A2zD， 
阶段 3 A3D3A; 一 D,A, 
阶段 4 人 3 DsAs 一 
阶段 5 一 D; Ds 
阶段 6 A 一 一 


这 一 原理 是 由 R.L.Gilstad 在 他 关于 多 阶段 合并 的 开创 性 论文 中 和 傈 略 地 提 到 的 ,他 
在 CACM 6(1963) ,220 一 223 中 又 做 了 更 详细 的 描述 。 

对 于 任何 数目 的 磁带 上 的 多 阶段 合并 ,ADA … 技 术 都 能 有 效 地 工作 ;因为 我 们 
可 以 证 明 ,在 每 个 阶段 A 和 DD 都 将 被 适当 地 同步 ,为 此 仅仅 假定 初始 的 分 布 扫 摘 在 
每 条 磁带 上 产生 交替 的 A 和 总 ,而 且 每 条 磁带 都 以 A 结束 (或 者 每 条 磁带 以 DD 结 
束 ) :因为 在 一 个 阶段 期 间 写 到 输出 文件 上 的 最 后 路 段 , 和 由 输入 文件 所 取 来 的 最 后 
路 段 的 方向 相反 ,因此 下 一 阶段 总 发 现 它 的 路 段 处 于 适当 的 方向 。 进 而 我 们 在 习题 
5.4.2-13 中 已 经 看 到 ,大 多 数 完 全 的 裴 波 那 契 分 布 都 要 求 在 一 条 磁带 上 有 计数 个 路 
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段 ( 最 后 的 输出 磁 帘 ) ,而 在 其 它 的 磁带 上 都 有 偶数 个 路 段 。 如 果 把 Tl 指定 成 最 后 
的 输出 磁带 , 则 我 们 因此 能 够 保证 , 如果 TIl 以 A 开 始 ,而且 剩 下 的 磁带 都 以 D 开 
始 , 则 所 有 的 磁带 都 以 A 路 段 告终 。 可 以 使 用 类 似 于 算法 5.4.2D 的 一 个 分 布 方 
法 ,但 修改 成 使 在 每 级 上 的 分 布 以 Tl 作为 最 后 的 输出 磁带 (我 们 跳 过 级 1 ,下 +1， 
2 本 +1,…, 因 为 在 这 些 级 中 ,起 始 为 空 的 磁带 是 最 后 的 输出 磁带 )。 例 如 ,在 6 条 磁 
带 的 情况 下 ,我 们 可 以 使 用 下 列 的 分 布 数 代 替 5.4.2-(1): 

级 T1 T2 T3 T4 TS 总 共 最 后 的 输出 将 在 


0 1 0 0 0 0 1 T1 
2 1 2 2 2 2 9 Ti 
3 3 4 4 4 2 17 Ti 
4 7 8 8 4 33 TI (1) 
5 15 16 14 12 8 65 T1 
6 31 30 28 24 16 129 T1 
8 61 120 116 108 92 497 T1 


于 是 ,T1 总 得 到 奇数 个 路 段 ,而 T2 到 TS 得 到 偶数 个 路 段 ,路 段 按 递 降 次 序 排列 ， 
这 是 为 了 在 支配 虚拟 路 段 时 具有 灵活 性 。 这 样 一 种 分 布 有 其 优点 , 即 最 后 的 输出 磁 
带 是 预先 知道 的 ,而 不 管 有 待 出 现 的 初始 路 段 数 是 多 少 。 结 果 ( 见 习题 3) , 当 使 用 
这 个 方案 时 ,输出 将 总 是 以 递增 的 次 序 出 现在 Tl 上 。 

D. 工 .Goodwin 和 J.L.Venn 已 经 提出 了 用 于 处 理 向 后 读 多 阶段 分 布 的 另 一 个 
方法 LCACM 7(1964),315]。 若 每 条 磁带 上 都 以 一 个 D 路 段 开 始 ,我 们 几乎 可 以 像 
在 算法 5.4.2D 中 那样 分 布 路 段 。 当 耗 尽 输入 时 ,除非 已 经 达到 对 全 部 奇数 编号 的 
磁带 的 分 布 了 ,否则 即 想像 有 一 个 虚拟 A 路 段 在 惟一 的 “奇数 "磁带 开始 处 。 其 它 
的 虚拟 路 段 想像 成 都 在 磁带 的 末端 ,或 者 组 成 为 位 于 中 间 的 对 偶 。 下 面 的 习题 5 中 
分 析 了 虚拟 路 段 的 最 优 放置 问题 。 


最 优 合 并 型 式 ”迄今 我 们 已 经 讨论 了 关于 合并 到 磁带 上 的 各 种 型 式 ,但 没有 问 
及 “最 好 ”的 方法 。 要 确定 最 优 的 型 式 似乎 是 十 分 困难 的 ,特别 是 在 向 前 读 的 情况 
下 ,其 中 重 绕 时 间 同 合并 时 间 的 相互 作用 难以 处 理 。 另 一 方面 , 当 通过 向 后 读 和 向 
前 写 完 成 合并 时 ,所 有 重 绕 实质 上 都 被 消去 ,而 且 有 可 能 得 到 相当 好 的 最 优 合并 型 
式 的 特性 。Richard M.Karp 引进 了 某 些 非常 有 趣 的 方法 来 解决 这 个 问题 ,我 们 将 通 
过 讨论 他 所 提出 的 理论 来 结束 这 一 小 节 。 

首先 ,我 们 需要 一 种 更 令 人 满意 的 描述 合并 型 式 的 方式 ,来 替代 前 面 所 使 用 的 
“磁带 内 容 " 图 。Karp 提出 了 两 种 方法 来 做 这 件 事 , 即 合并 型 式 的 向 量 表示 和 树 表 
示 。 这 两 种 表示 形式 实际 上 都 是 有 用 的 ,所 以 我 们 将 依次 来 描述 它们 。 

一 个 合并 型 式 的 向 量 表 示 , 由 一 系列 “合并 向 量 ”y'”™… yy' 中 所 组 成 ,它们 每 
一 个 都 有 工 个 分 量 。 以 如 下 方式 用 y' 来 表示 倒数 第 i 个 合并 步 . 
| 1 如 果 第 ; 号 磁带 是 对 于 合并 的 一 个 输入 


> 二 4 0 如果 第 ; 号 磁带 在 合并 中 未 用 (2) 
- 1 如 果 第 ; 号 磁带 得 到 合并 的 输出 
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于 是 ,y' 恰 有 一 个 分 量 为 -1, 而 其 余 的 分 量 为 0 和 1。 最 后 的 向 量 y 中 是 特殊 的 ; 
全 是 单位 向 量 , 如 果 最 后 的 排序 输出 出 现在 第 ; 号 设备 处 , 则 该 向 量 在 位 置 ; 处 有 
1 ,其 余 处 则 为 0。 此 定义 意味 着 ,向 量 和 


Zi) = vy 十 全) 十 .十 yo (3) 
表示 倒数 第 i 个 合并 步 之 前 磁带 上 路 段 的 分 布 。 特 别 是 ,v'” 说 明 初 始 分 布 扫 描 安 
置 多 少 个 路 段 到 每 条 磁带 上 。 


把 这 些 向 量 倒 着 编号 , 即 从 y' 交 开始 而 以 y' 中 结尾 ,似乎 并 不 方便 ,但 是 这 种 特 
殊 的 观点 对 发 展 这 一 理论 是 有 利 的 。 为 了 寻找 一 个 最 优 的 方法 ,一 个 好 办 法 就 是 以 
排 好 序 的 输出 开始 ,并且 想 像 把 它 拆 开 到 各 条 磁带 上 ,然后 再 拆 开 这 些 ,等 等 ,同时 ， 
以 同 它们 在 排序 过 程 中 实际 出 现 的 顺序 相 颠 倒 的 顺序 ,考虑 依次 的 分 布 wo ,mu ， 
om。 实质 上 ,这 就 是 我 们 在 对 多 阶段 和 级 联合 并 进行 分 析 时 ,已 经 采取 的 方 


法 。 

在 本 节 中 最 先 以 表格 形式 描述 的 3 种 合并 型 式 有 下 列 向 量 表示 : 
平衡 的 (T= 4,S = 8) 级 联 (T=4,S = 14) 多 阶段 (T=3,S = 13) 
v=( 4, 4, 0, 0) vi =( 6, 5, 3, 0) v=( 5, 8, 0) 
y=(+1,+1,—-1, 0) y VM =(+1,+1,+1,—1) y=(+1,+1,—1) 
y=(+1,+1, 0,—1) y=(+1,+1,+1,—1) yy =(+1,+1,—1) 
y=(+1,+1,—-1, 0) y=(+1,+1,+1,—1) y1 Y=(+1,+1,—1) 
y=(+1,+1, 0,—1) y=(+1,+1,-1, 0) y=(+1,+1,—1) 
y=(-1, 0,+1,+1) y=(+1,+1,—1, 0) y=(+1,+1,—1) 
y=( 0,—-1,+1,+1) y=(+1,-1, 0, 0) y=(-1,+1,+1) 
y=(+1,+1,—1, 0) yY =(-1,+1,+1,+1) y=(-1,+1,+1) 
y0=( 0, 0, 1, 0) y=( 0,-1,+1,+1) y=(-1,+1,+1) 
y=( 0, 0,-1,+1) y=(+1,—1,+1) 
yV =(+1,+1,+1,—1) y=(+1,-1,+1) 
yV =( 0, 0, 0，1) y=(+1,+1,—1) 
y=(-1,+1,+1) 
yo=( 1, 0, 0) 


每 个 合并 型 式 显 然 有 一 个 向 量 表示 。 反 之 ,容易 看 到 ,向量 序列 yt™)… y(t!) yt0) 
对 应 于 一 个 实在 的 合并 型 式 的 充 要 条 件 ,为 下 列 3 点 : 

i) yo 是 一 个 单位 向 量 。 

ii) 对 于 m 宇 i 宇 1,y'? 恰 有 一 个 分 量 等 于 -1, 所 有 其 余 的 分 量 为 0 或 +1。 

ii) 对 于 光宇 i 宇 1 ,y+ …+ ytD+ y 中 的 所 有 分 量 非 负 。 

一 个 合并 型 式 的 “ 树 表 示 ” 给 出 了 同样 信息 的 男 一 种 图 示 。 我 们 构造 一 株 树 ,对 
于 每 个 初始 路 段 有 一 个 外 部 “ 叶 ” 节 点 ,对 于 被 合并 的 每 个 路 段 有 一 个 内 部 节点 , 构 
造 的 方式 是 :每 个 内 部 节点 的 后 背 是 那样 一 些 路 段 ,该 内 部 节点 是 从 这 些 路 段 制 作 
出 来 的 。 每 个 内 部 节点 都 以 对 应 的 开始 时 的 步骤 号 作为 标号 ,并 且 像 在 向 量 表 示 中 
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那样 ,步骤 是 向 后 编号 的 ;进而 ,每 个 节点 上 面 的 边 以 路 段 所 在 的 佩带 名 来 标 出 。 例 
如 ,上 述 的 3 种 合并 型 式 有 图 76 中 所 描述 的 树 表示 ,其 中 我 们 称 磁 带 为 A ,B,C， 
DD ,以 代替 T1,T2 ,T3 ,T4。 


B/C D C D 
G) 6) (8 GO) (% 10) 
A B A/B| \C 4/ \8 4/B| \C 4/B| \C 
| 


A 





多 阶段 (T=3, S =13) 


1) 
B C 
(4) C2) 
A C A B 
UD) (7) (3) 
B/ \C Ah/ \BB/ \C A C 
站 DD G) (©) (12) 
A \B A/ \B B/ \C A/ \B 
图 DD (9) DD 


图 76 3 种 合并 型 式 的 树 表示 


这 个 表示 以 方便 的 形式 揭示 了 合并 型 式 中 许多 有 关 的 性 质 ; 例 如 ,如 果树 的 0 
级 ( 根 ) 上 的 路 段 是 递增 的 , 则 1 级 上 的 路 段 必定 是 递 降 的 ,在 2 级 上 的 那些 必定 是 
递增 的 ,等 等 ;一 个 初始 路 段 是 递增 的 , 当 且 仅 当 对 应 的 外 部 节点 在 一 个 偶数 号 级 
上 。 进 而 ,在 合并 期 间 处 理 的 初始 路 段 的 总 数 ( 不 包括 初始 分 布 ) 恰 等 于 这 株 树 的 外 
部 路 段 长 度 , 因 为 在 级 上 的 每 个 初始 路 段 部 恰 锌 处理 & 次 。 

每 种 合并 型 式 都 有 一 个 树 表 示 ,但 不 是 每 个 树 都 定义 一 种 合并 型 式 。 一 株 其 内 
部 证 点 已 经 以 数 1 到 m 标号 ,而 其 边 已 经 以 磁带 名 标号 的 树 ,表示 一 种 正确 的 向 后 
读 的 合并 型 式 的 充 要 条 件 为 

a) 凡 邻接 于 同一 内 部 节点 的 两 边 ,磁带 名 都 不 相同 。 
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b) 如 果 i >>j, 且 如 果 A 是 一 个 磁带 名 , 则 这 树 不 包含 下 列 形 状 


c) 如 果 i 之 j 之 &<<7, 而 且 如 果 A 是 一 个 人 磁带 名 , 则 这 株 树 不 包含 下 列 形状 


条 件 a) 是 自明 的 ,因为 在 一 个 合并 中 输入 和 输出 的 磁带 必须 是 不 同 的 ;类 似 地 ,b) 也 
是 显然 的 。“ 无 交叉 "条件 c) 反 映 了 后 进 先 出 的 限制 , 它 表 征 了 在 磁带 上 向 后 读 的 操 
作 : 在 步骤 中 形成 的 一 个 路 段 , 必 须 比 同一 磁 市 上 以 前 形成 的 先 撤销 ;因此 (4) 中 
构 形 是 不 可 能 的 。 不 难 验 证 ,任何 满足 条 件 a) ,b) ,c) 的 磁 市 标号 的 例 确 实 对 应 于 一 
种 向 后 读 的 合并 型 式 。 

如 果 有 工 台 磁 带 机 , 则 条 件 a) 意 味 着 每 个 内 部 节点 的 次 数 为 全 -1 或 更 
小 。 对 所 有 这 样 的 树 并 不 总 能 附加 上 适当 的 标号 ;例如 , 当 本 = 3 时 ,没有 其 树 的 形 
状 为 


(5) 
的 合并 型 式 。 如 果 我 们 能 以 适当 的 方式 附加 步骤 号 和 磁带 名 称 , 则 这 个 形状 将 导致 
一 个 最 优 的 合并 型 式 , 因 为 它 是 在 有 4 个 外 部 节点 的 一 株 树 中 达到 极 小 外 部 路 段 长 


度 的 惟一 途径 。 但 由 于 图 式 的 对 称 性 ,实质 上 仅 有 一 种 方式 按照 条 件 al) 和 b) 来 加 
标号 , 即 


(6) 





但 这 同 条 件 c) 相 冲突 。 可 以 按照 上 述 条 件 ,利用 至 多 了 个 磁带 名 称 加 上 标号 的 一 
种 图 形 , 称 为 Tlifo(T 开 -后 进 先 出 ) 树 。 
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男 外 还 有 一 种 方式 ,可 以 刻 划 产生 于 合并 型 式 的 所 有 磁带 标号 树 , 即 考虑 怎样 
能 “长 出 "所 有 这 样 的 树 。 从 某 个 磁带 名 称 , 比 如 说 A ,以 及 以 树 身 


E 
开始 。 在 树 生长 过 程 中 的 第 i 步 为 选择 不 同 的 磁带 名 称 B, Bi,B,,…, B, ,并 把 对 
应 于 B 的 最 近 形 成 的 外 部 节点 


(7) 





这 个 最 后 形成 ,首先 生长 "的 规则 ,精确 地 说 明了 树 表示 可 以 怎样 从 向 量 表示 直接 
地 构造 出 来 。 

要 确定 严格 最 优 的 全- 磁带 合并 型 式 , 即 从 具有 给 定 外 部 节点 数 的 所 有 荆 -lifo 
树 中 选 出 具有 极 小 路 径 长 度 的 树 ,似乎 是 十 分 困难 的 。 例 如 ,下 列 并 非 显 然 的 型 式 ， 
可 证 明 是 向 后 读 、 合 并 4 条 磁带 上 7 个 初始 路 段 的 一 种 最 优 方式 : 


(8) 





为 达到 最 优 , 一 个 一 路 合并 实际 上 是 必 不 可 少 的 (见习 题 8)! 另 一 方面 ,对 于 
任何 固定 的 工 , 要 给 出 接近 最 优 的 构造 , 倒 并 不 那么 困难 。 

设 Kr(n) 是 在 具有 nn 个 外 部 节点 的 一 株 T-jlifoe 树 中 可 达到 的 极 小 外 部 路 径 长 
度 。 由 2.3.4.5 小 节 中 展示 的 理论 ,不 难 证 明 


Kr(n) 之 ng -LL((T-1) -nn)/(T-2)J, a = [logr-in| (9) 


因为 这 是 具有 ?2 个 外 部 节点 且 所 有 节点 的 次 数 < 工 的 任何 树 的 极 小 外 部 路 径 
长 度 ,现在 确切 地 知道 的 Kr(n ) 的 值 比较 少 。 下 面 是 部 分 上 限 , 它 们 大 概 是 准确 
的 : 
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2 .34 5 6 7 8 9 10 11 12 13 14 15 
2 5 9 12 16 21 25 30 34 39 45 50 56 61 
0236 8 11 14 17 20 24 27 31 33 37 40 
Karp 已 经 发 现 ,任何 其 内 部 节点 的 次 数 <T 的 树 都 是 准 T-lifo 的 ,就 是 说 ,只 要 
改变 某 些 外 部 节点 成 为 一 路 合并 , 它 就 变 成 T-life 的 了 。 事 实 上 ,构造 一 组 适当 的 
标号 是 相当 简单 的 。 令 A 是 一 个 特殊 的 磁带 名 称 , 则 构造 方法 如 下 : 

步骤 1. 假定 特殊 名 称 A 仅 用 在 一 个 分 支 的 最 左边 的 边 上 , 则 以 同上 述 条 件 a) 
相 一 致 的 任何 方式 ,把 磁带 名 称 附 加 到 树 图 式 的 诸 边 上 。 


B 


步骤 2. 每 当日 天 A 时 以 ~ 代替 形 如 由 的 每 一 外 部 节点 。 


(10) 


步骤 3. 按 先 序 (preorder) 为 树 的 内 部 节点 编号 ,结果 就 是 满足 条 件 a) ,b),c) 的 
一 株 科 市 标号 树 。 


例如 ,如果 我 们 从 树 


(11) 


和 3 条 磁带 开始 , 则 这 个 过 程 可 以 赋 标 号 如 下 : 
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A 


B C 
(C2) 8) 
A C A B 
3) (6) (9) (2 
B C A B B C A C 
(4) (5) LL] (DD QW QD LQ» 
A A A A A A 
_ || | | 图 
不 难 验证 ,Karp 的 构造 满足 "最 后 形成 ,最 先生 长 ”的 规则 ,这 是 由 于 先 序 的 本 性 所 
致 (见习 题 12 ) 。 
这 个 构造 的 结果 是 一 个 合并 型 式 , 它 所 有 的 初始 路 段 都 出 现 于 磁带 A 上 。 它 
提示 了 以 下 的 分 布 和 排序 方案 ,我 们 可 以 称 之 为 先 序 合并 。 


P1. 分 布 初始 路 段 到 磁带 A 上 ,直到 输入 被 穷尽 为 止 。 设 S 是 初始 路 段 的 总 
数 。 

P2. 利用 具有 S 个 外 部 节点 的 一 株 极 小 路 径 长 度 的 个 -1 又 树 , 进 行 上 述 构造 ， 
得 到 一 株 其 外 部 路 径 长 度 在 (9) 中 下 限 的 S 倍 之 内 的 T-lifoe 树 。 

P3. 按照 这 一 型 式 合 并 诸 路 径 。 


这 个 方案 将 在 任何 所 希望 的 磁带 上 产生 它 的 输出 。 但 它 有 一 个 严重 的 缺陷 
一 一 读者 看 出 是 什么 了 吗 ? 它 的 问题 在 于 合并 型 式 要 求 开始 时 在 磁带 A 上 的 某 些 
路 段 是 递增 的 , 某 些 是 递减 的 ,这 取决 于 对 应 的 外 部 节点 是 出 现在 奇数 级 上 还 是 出 
现在 偶数 级 上 。 这 个 问题 ,通过 在 恰好 需要 之 前 ,把 应 是 递减 的 诸 路 段 ,拷贝 到 一 条 
或 多 条 辅助 磁带 上 ,就 可 无 须 预 先知 道 S 而 解决 。 然 后 ,用 初始 路 段 的 长 度 来 表 
达 ,处 理 的 总 数量 为 


(12) 


S logr-1S + O(S) (13) 
于 是 , 当 S$ 一 ce 时 , 先 序 合并 肯定 好 于 多 阶段 或 级 联合 并 。 其 实 , 它 是 接近 最 优 
的 ,因为 (9) 表 明 ,S logr-1S + O(S) 是 我 们 在 工 条 磁带 上 所 能 希望 达到 的 最 好 者 。 
男 一 方面 ,对 于 在 实践 中 通常 出 现 的 较 小 的 S 值 , 先 序 合 并 是 相当 低 效 的 : 当 S 相 
当 小 时 ,多 阶段 法 或 级 联 方法 是 更 简单 和 更 快 的 。 也 许 有 可 能 想 出 一 种 简单 的 分 布 
和 合并 方案 ,对 于 小 的 S 值 , 它 足以 同 多 阶段 法 和 级 联 法 匹敌 ,而 对 于 大 的 S , 它 是 
接近 最 优 的 。 
以 下 的 第 二 组 习题 表明 Karp 如 何以 一 种 类 似 的 方式 陈述 了 向 前 读 合并 的 问 
题 。 在 这 种 情况 下 ,这 个 理论 证 明 是 更 为 复杂 的 ,尽管 已 经 发 现 了 某 些 非常 有 趣 的 
结果 。 
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习 题 一 一 第 一 组 


1.[17] 在 向 前 读 合 并 时 ,用 一 个 键 码 为 + 0 的 人 造 “ 哨 兵 ” 来 标志 磁带 上 每 个 路 段 的 结尾 往 
往 是 方便 的 。 试 问 当 向 后 读 时 ,如 何 修改 这 一 做 法 ? 
2.[20] 类 似 (1) 的 一 个 数组 的 诸 列 将 总 是 非 减 的 吗 ? 或 者 ,是 否 有 这 种 可 能 , 当 我 们 从 一 级 
进行 到 下 一 级 时 ,将 要 从 某 条 磁带 “ 减 " 去 一 些 路 段 ? 
3.L20] 证 明 : 如 果 T1 原来 从 ADA… 开 始 , 而 T2 到 Ts 以 DAD… 开 始 , 则 当时 (1) 的 完全 分 
布 使 用 向 后 读 多 阶段 合并 后 ,在 排序 完成 时 ,将 总 是 在 磁带 Tl1 上 得 到 一 个 A 路 段 。 
4.LM22 ] 在 以 递增 次 序 分 布 所 有 路 段 之 后 ,做 向 后 读 多 阶段 合并 是 一 个 好 的 想法 吗 ? 想像 
所 有 的 “D" 位 置 开始 时 都 填 以 虚拟 路 段 。 
> 5.123 ] 当 使 用 向 后 读 多 阶段 合并 时 ,合并 数 的 序列 将 有 什么 公式 ,以 代替 5.4.2 小 节 的 (8)， 
(9),(10) 和 (11)? 通过 画 出 类 似 图 71(a) 的 一 个 图 形 ,说 明 在 6 条 磁带 上 第 5 级 分 布 的 合并 数 。 
6.[07」 树 表示 为 (8) 的 合并 型 式 , 其 向 量 表 示 如 何 ? 
7.[16」 通 出 由 下 列 向 量 序列 定义 的 向 后 读 合并 型 式 的 树 表 示 : 
v3)=(20 ， 9， 5) 


y=(+1,—1,+1) 
y=(+1,+1,—1) 
y=(+1,+1,—1) 

3) (+1,+1,—1) 


“=(+1,-1,+1) 


=(-1,+1,+1) 


(20)=(+1,—1,+1) 


=(+1,+1,—1) 


y=(+1,—1,+1) 
y=(-1,+1,+1) 
y=(+1,+1,—1) 
yt1Y=(—1,+1,+1) 
y=(+1,+1,—1) 


“=(+1,+1,-1) 
(0)=(+1,+1,—1) 


(5)=(+1,+1,—1) 


=(+1,-1,+1) 


y=(+1,+1,—1) 
Y=(+1,—-1,+1) 
(=(+1,+1,—1) 
DD=(+1,+1,—1) 
(HO=(+1,+1,—1) 


Y=(-1,+1,+1) 


=(-1,+1,+1) 
=(+1,-1,+1) 
‘VD=(-1,+1,+1) 


»》 
>》 
了 
了 J 
J 了 
y y=(+1,—-1,+1) 
yD =(+1,—1,+1) y 
»》 J 
>》 >》 
»》 »》 


TD y=(-1,+1,+1) 


J 

>》 

J 
y=(+1,—1,+1) 
>》 

y (0) = ( 1，0，0) 
>》 


y=(+1,—1,+1) (Do=(+1,+1,—1) 
8.123] 证 明 当 S=7 和 T=4 人 时 ,(8) 是 向 后 读 合并 的 一 种 最 优 方式 ,那些 避免 一 路 合并 的 所 
有 方法 均 比 它 差 。 
9.LM22]」 证明 下 限 (9)。 
10.[41] 利用 一 台 计 算 机 ,编制 Kr(n ) 的 准确 值 的 表 。 
> 11.120」 真 或 假 : 对 于 只 使 用 全 -1 路 合并 的 任何 向 后 读 合并 型 式 , 在 每 条 磁带 上 只 能 有 交 
蔡 的 ADAD… 的 路 段 ,如 果 两 个 相 邻 的 路 段 以 相同 次 序 出 现 , 则 无 法 继续 工作 。 
12.[22」 证明 ,Karp 的 先 序 构造 将 总 是 产生 一 个 满足 条 件 a) ,b) 和 c) 的 磁带 标号 的 树 。 
13.[16] 通过 撤消 尽 可 能 多 的 一 路 合并 ,使 得 先 序 仍然 给 出 内 部 节点 的 一 个 正确 标号 ,从 而 
使 (12) 更 为 有 效 。 
14.[40] 试 设计 一 个 算法 , 它 进行 先 序 合并 ,而 无 须 明 显 地 表示 在 步骤 P2 和 P3 中 的 树 ,要 求 
此 算法 仅仅 用 O(logS) 个 内 存单 元 来 控制 合并 型 式 。 
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15.1M39] 正文 中 的 Karp 先 序 构造 ,产生 在 若干 终端 节点 处 具有 一 路 合并 的 树 。 证 明 当 了 
=3 时 ,有 可 能 构造 接近 最 优 的 3-lifo 树 ,其 中 自始至终 使 用 两 路 合并 。 
换言之 , 设 必 7r(z) 是 所 有 的 具有 7 个 外 部 节点 ,和 且 使 得 每 个 内 部 节点 的 次 数 为 个 -1 的 
-lifo 树 的 极 小 外 部 路 径 长 度 , 证 明 :K3(n)= nlgn+ O(n)。 
16.1M46] 使 用 习题 15 的 符号 , 当 n 夺 1 (modulo T-2) 时 ,是 否 对 于 所 有 的 T 宇 3,Kr(n) 
=nlogr-in+ O(n)? 
> 17.[28] (Richard D. Pratt) 为 了 在 向 后 读 级 联合 并 中 实现 递增 次 序 ,我 们 可 坚持 偶数 次 的 合 
并 扫描 次 数 ; 这 提示 了 有 些 不 同 于 算法 5.4.3C 的 初始 分 布 技术 。 
a) 改 变 5.4.3-(1) ,使 得 它 仅仅 示 出 要 求偶 数 次 合并 扫描 的 完全 分 布 。 
b) 试 设计 一 初始 分 布 方案 , 它 内 插 于 这 些 完全 分 布 之 间 ( 于 是 ,如 果 初 始 路 段 数 落 在 儿 个 完全 
分 布 之 间 , 则 和 希望 两 次 合并 某 些 路 段 ,但 不 是 所 有 的 路 段 ,以 便 达 到 一 个 完全 的 分 布 )。 
> 18.[M38] 假设 对 于 某 个 人 宇 3, 有 全 个 磁带 机 可 利用 ,而 且 Tl 含 NN 个 记录 而 其 余 的 磁带 
为 空 。 问 是 否 有 可 能 在 少 于 Q(NlogN) 步 内 颠倒 Tl 上 记录 的 顺序 ,而 无 须 向 后 读 ( 当 然 , 如 果 允 
许 向 后 读 , 则 操作 是 显然 的 )? 对 于 要 求 阶 为 NlogN 步 的 这 样 一 类 算法 ,请 参见 习题 5.2.5-14。 


习 题 一 一 第 二 组 


下 列 习 题 发 展 了 向 前 读 带 的 磁带 合并 理论 ;在 这 种 情况 下 ,每 条 磁带 起 一 个 队列 的 作用 ,而 
不 是 一 个 栈 的 作用 。 一 个 合并 型 式 可 以 完全 像 正 文中 那样 ,表示 成 向 量 y")… yy'" 的 一 个 序 
列 。 但 当 我 们 把 向 量 表 示 转 换 为 一 个 树 表 示 时 ,我们 把 “最 后 形成 ,首先 生长 " 改 为 “首先 形成 , 首 
先生 长 ”, 于 是 非法 的 形状 (4) 将 改变 为 


类 似 于 向 后 读 情 况 下 的 术语 “T-lifo” ,可 以 被 标号 ,以 便 表 示 在 TT 条 磁带 上 的 向 前 读 合并 的 
一 株 树 , 称 为 Tfifo( 本 -先进 先 出 )。 
当 磁 带 可 以 向 后 读 时 ,它们 形成 非常 好 的 栈 。 但 不 幸 的 是 ,它们 并 不 形成 非常 好 的 通用 的 队 
列 。 如 果 以 先进 先 出 的 方式 ,随机 地 写 和 读 , 则 我 们 将 浪费 大 量 的 时 间 把 磁带 移 来 移 去 。 甚 至 更 
坏 的 是 ,可 能 会 “ 跑 出 "磁带 的 末尾 1! 我 们 会 遇 到 与 2.2.2-(4) 和 (5) 中 队列 超出 内 存 同样 的 问题 ， 
但 是 2.2.2-(6) 和 (7) 中 的 解 不 能 应 用 到 磁带 上 ,因为 它们 并 不 是 圆 形 的 循环 。 因 此 ,如 果 我 们 可 
以 对 一 株 树 加 以 标号 ,使 得 它 对 应 的 合并 型 式 使 每 条 磁带 都 遵循 特殊 的 排队 规则 “ 写 , 重 绕 , 读 所 
有 的 记录 , 重 绕 ; 写 , 重 绕 , 读 所 有 的 记录 , 重 绕 , 等 等 ”, 则 称 这 株 树 为 强 T-fifo 的。 
> 19.[22] (R.M.Karp) 试 求 一 株 不 是 3-fifo 的 二 叉 树 。 
> 20.[22] 利用 类 似 于 (4 ) 的 关于 非法 的 磁带 标号 形状 的 相当 简单 的 规则 ,建立 “ 强 T-fifo 的 
条 件 。 
21.[18] 画 出 习题 7 中 用 向 量 定义 的 向 前 读 合并 型 式 的 树 表 示 ,这 株 树 是 强 3-fifo 的 吗 ? 
22.[28] (R.M.Karp) 证 明 具 有 完全 分 布 的 多 阶段 和 级 联合 并 的 树 表示 ,除了 标示 内 部 证 所 
的 诸 数 外 ,对 向 后 读 及 向 前 读 两 者 的 情况 完全 一 样 。 试 求 更 大 一 类 合并 型 式 的 向 量 表示 ,对 于 它 
来 说 ,上 述 条 件 为 真 。 
23.[24] (R.M.Karp) 如 果 没 有 随后 用 作 输 入 带 的 输出 带 , 即 ;如果 不 存 在 i,j,k, 使 g 之 i>> 
之 r,y 站 = 一 1 和 y= 十 1, 则 我 们 称 一 个 合并 型 式 的 y'”…y'” 段 为 一 节 (stage)。 本 题 的 目 
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的 是 证 明 , 对 有 相同 磁带 数 和 初始 路 段 数 的 所 有 合并 型 式 ,级 联合 并 使 数 最 小 。 

为 叙述 方便 ,我 们 先 定义 一 些 符号 。 如 果 w 和 w 是 TT 向 量 , 使 得 存在 一 个 合并 型 式 , 它 在 它 
的 第 一 节 把 w 约 化 为 v, 则 写 之 为 v 一 也 (于 是 存在 一 个 合并 型 式 y(”…y' 中 使 得 办 w+ 为 
一 节 ，,z = 只 亚 ) 十 + yoO 且 忆 三 六) 十 + yo) )。 如 果 w 和 ww 是 TT 向 量 , 使 得 对 于 1k 志和,w 
的 最 大 & 个 元 素 之 和 三 w 的 最 大 & 个 元 素 之 和 , 则 写 之 为 wv 过 包 。 例 如 , (2,1,2,2,2,1) 过 (1,2,3， 
0,3,1), 因 为 2<&3,2+2<3+3,…,2+2+2+2+1+1 二 3+3+2+1+1+0。 最 后 ,如 果 w= (wv,， 
,20T); 则 令 CC(z) = (Ts 57T 50) ,其 中 是 wv 的 最 大 & 个 元 素 之 和 。 

a) 证 明 “一 C(v)。 

b) 证 明 v 过 w 药酒 着 C(v) 之 C(w)。 

c) 假 定 习 题 24 的 结果 ,证 明 级 联合 并 使 节 的 数目 取 极 小 。 

24.LM35] 使 用 习题 23 的 符号 ,证 明 v 一 w 蕴涵 着 ww 之 C(wv)。 

25.[M36](R.M.Karp) 如 果 没 有 既 用 作 输 入 也 用 作 输 出 的 磁带 , 即 , 如 果 不 存在 i,;,&, 使 
q 之 i 之 r ,gq 之 k 宇 r ,是 y 二 十 1 和 ys = 一 1, 则 我 们 称 合并 型 式 的 一 个 y( …y(" 段 是 为 一 个 
阶段 (phase)。 本 题 的 目的 是 研究 使 阶段 数 极 小 化 的 合并 型 式 。 如 果 在 一 个 阶段 中 w 可 以 被 约 
化 为 v( 习 题 23 中 引进 了 类 似 符 号 ) , 则 写 之 为 v 之 岂 。 我 们 设 

Di(v) = (8 + trisse + tetas sse + tr,0,. ,0) 
其 中 z 表示 w 的 第 ; 个 最 大 的 元 素 , 且 $6= ti 十 … 十 如。 

a) 证 明 对 于 1 委 &<T,o 字 Di(u)。 

b) 证 明 对 于 1 二 £< 丁 ,vw 获 涵 着 Di(zo) 区 D,(zw)。 

c) 证 明 对 于 某 个 &,1 委 &<T,o 全 世 列 涵 着 凤 才 D,()。 

d) 因此 ,在 g 个 阶段 和 工 条 磁带 的 情况 下 ,能 使 被 排序 的 初始 路 段 数 达 到 极 大 的 一 个 合并 型 
式 ,可 以 通过 一 个 整数 序列 &,k,…k。 表示 ,使 得 初始 分 布 是 Di (… (Di (Di (ww))).), 其 中 = 
(1,0,…,0)。 这 个 极 小 阶段 策略 ,有 一 个 强 Tfifo 表示 ,而 且 它 也 属于 习题 22 中 型 式 的 类 型 。 当 
T=3 时 , 它 就 是 多 阶段 合并 。 而 对 于 人 =4,$,6,7, 它 是 平衡 合并 的 一 种 变种 。 

26.[LM46] (R.M.Karp) 对 于 所 有 T 之 4 和 所 有 充分 大 的 ,习题 25 中 提 到 的 最 优 序列 
Ai&2…& 总 是 等 于 1T TI21LTI2JTTI21LTI2jJ… 吗 ? 


“$5.4.5 振荡 排序 


Sheldon Sobel 在 JACM 9(1962) ,372 一 375 中 提出 了 一 个 与 合并 排序 稍微 不 同 
的 方法 。 这 个 方法 不 是 以 把 所 有 初始 路 段 分 散 到 磁带 的 一 个 分 布 扫描 开始 ,而 是 在 
分 布 和 合并 之 间 前 后 振荡 ,使 得 在 对 输入 进行 完备 地 考察 之 前 ,许多 排序 都 可 进行 。 
例如 ,假设 有 5 条 磁带 可 供 合 并 时 利用 ,Sobel 方法 将 16 个 初始 路 段 排 序 如 下 . 


操作 Tl T2 T3 T4 TS 代价 
阶段 1 分 布 Ai Ai Ai Ai 一 4 
阶段 2 合并 一 一 一 一 Ds 4 
阶段 3 分 布 一 Ai Ai Ai D,Ai 4 
阶段 4 合并 Da 一 一 一 D, 4 
阶段 5 分 布 DsAl — Ai Ai D,A， 4 
阶段 6 合并 D, Ds, 一 一 Ds 4 
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阶段 7 分 布 DaAi DasAl 一 Al DAi 4 
阶段 8 合并 D, D, D, 一 Da 4 
阶段 9 合并 一 一 一 Al16 一 16 


此 处 同 5.4.4 小 市 中 一 样 ,使 用 A, 和 DD, 分 别 代表 相对 长 度 为 > 的 递增 和 递 降 路 
段 。 本 方法 开始 在 4 条 磁带 上 各 写 一 个 初始 路 段 ,并 且 把 它们 (向 后 读 ) 合 并 到 第 $ 
条 磁带 上 。 分 布 再 次 继续 ,这 次 磁带 循环 地 向 右 移 一 个 位 置 , 而 第 二 个 合并 产生 另 
一 个 路 段 D4。 在 以 这 种 方式 形成 4 个 Ds 后 ,一 个 附加 的 合并 建立 Ag。 我 们 可 以 
继续 建立 另 3 个 Ai6, 把 它们 合并 成 一 个 Du。 如 此 类 推 直到 穷尽 输入 为 止 。 预 先 
不 必 知 道 输入 的 长 度 。 

当初 始 路 段 的 个 数 S 为 4” 时 ,不 难看 出 这 个 方法 恰 处 理 每 个 记录 m+1 次 : 
在 分 布 期 间 1 次 和 在 合并 期 间 和 次 。 当 S 处 于 4” ! 和 4” 之 间 时 ,我 们 可 以 假定 
存在 虚拟 路 段 ,把 S 提升 为 4”; 因 此 总 共 的 排序 时 间 实 际 上 将 等 于 对 于 所 有 的 数据 
进行 | log4S 1|+1 次 扫描 。 这 恰 是 通过 对 8 条 磁带 的 一 个 平衡 排序 所 达到 的 ;一般 地 
说 ,使 用 工 条 工作 磁带 的 交替 排序 等 价 于 使 用 2( 开 -1) 条 磁带 的 平衡 的 合并 ,因为 
它 进 行 对 数据 的 | logr-1Si+1 次 扫描 。 当 SS 是 工 -1 的 一 个 乘 方 时 ,这 是 任何 T- 
磁 市 方法 所 能 达到 的 最 好 效果 ,因为 它 达 到 等 式 5.4.4-(9) 中 的 下 限 。 另 一 方面 , 当 
S 是 (T-1)” +1 时 , 即 恰巧 比 工 -1 的 一 个 乘 方 大 1 时 ,这 个 方法 几乎 浪费 整个 
一 趋 扫 摘 。 

习题 2 示 出 ,如 何 通过 使 用 一 个 特殊 的 结尾 例 程 ,以 部 分 消除 对 于 非 完整 乘 方 
的 S 的 损失 。1966 年 ,Dennes L. Bencher 做 了 进一步 的 改进 ,他 称 他 的 过 程 为 “ 交 
叉 合 并 ”[ 见 H. Wedekind, Datenorganisation (Berlin: W. de Gruyter, 1970) , 164 一 
166;U.S. Patent 3540000(1970)]。 主 要 的 思想 是 延迟 合并 直到 获得 关于 S 的 更 多 
的 知识 为 止 。 我 们 将 讨论 对 Bencher 创立 的 方案 稍 做 修改 后 的 形式 。 

这 个 改进 的 交 蔡 排序 进行 如 下 : 


操作 TT1 T2 T3 T4 T5 代价 
阶段 1 分 布 一 Ai Al Al - Al 4 
阶段 2 分 布 一 Al AliAl AiAl AiAl 3 
阶段 3 合并 D, 一 Al Al Al 4 
阶段 4 分 布 D4Ai 一 Al AiAn AliAi 3 
阶段 5 合并 DD A, A 
阶段 6 分 布 DsA! 站 ,Ai 一 Ai AiAI 3 
阶段 7 合并 Ds Ds D, 一 Ai 4 
阶段 8 分 布 DsAl DsAl DaAi 一 AI 3 
阶段 9 ”合并 Da D: D, D, 一 4 
这 时 我 们 不 把 Ds 合并 到 Ai 中 (除非 输入 恰好 将 要 穷尽 ) ,仅仅 在 实施 
阶段 15 合并 Ds Da Da Da Da Ds Da 一 4 
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之 后 ,我 们 将 得 到 


阶段 16 合并 Ds D, D, 一 Al6 16 
在 再 生成 3 个 Ds 之 后 ,将 出 现 第 二 个 Ai 

阶段 22 合并 Da Da Ds Ds D, 一 Ali6D4 4 

阶段 23 合并 Da 万 4 一 Ais 人 16 16 


等 等 (参见 阶段 1~5)。 可 以 看 出 Bencher 方案 的 优点 ,例如 ,如 果 仅 有 5 个 初始 阶 
段 , 则 在 习题 2 人 2)， 紧 接着 做 一 个 二 路 
合并 ,总共 代价 为 4+4+1+S=14。 而 Bencher 方 案 则 做 一 个 二 路 合并 (在 阶段 3)， 
紧 接 着 做 一 个 四 路 合并 ,总 共 从 4 1 (两 由 大 下 都 一 个 小 的 附加 
代价 , 即 在 最 后 的 合并 之 前 有 1 个 单位 的 重 绕 )。 

以 下 的 算法 B 中 有 Bencher 方法 的 一 个 精确 描述 。 可 惜 的 是 , 它 似乎 是 一 个 比 
代码 更 难以 理解 的 过 程 。 向 一 台 计 算 机 说 明 这 项 技术 , 比 之 于 向 一 位 计算 机 学 家 说 
明 更 容易 ! 部 分 原因 是 由 于 它 是 一 个 递归 方法 ,已 经 表达 成 迭代 的 形式 , 且 进 行 了 
一 定 的 优化 ;证 者 可 以 发 现 ,要 真正 了 解 它 ,有 必要 跟踪 整个 算法 若干 次 。 


， 口 
~ 
B2. 否 B3. A 准备 好 B5 合并 B6. 本 级 
输入 完成 ? 本 开始 新 的 级 合并 了 吗 ? | 7 完成 了 吗 ? 
是 {=0 


加 77 具有 一 个 交叉 分 布 的 振荡 排序 


算法 B( 具 有 交叉 分 布 的 振荡 排序 ) ”这 个 算法 取 初 始 路 段 并 把 它们 分 散 到 磁 
带 上 ,偶尔 中 断 分 布 过 程 以 便 合并 某 些 磁带 的 内 容 。 这 个 算法 使 用 p 路 合并 ,并 假 
定 有 下 = 忆 +1 之 3 台 磁 带 机 可 利用 (用 于 保持 输入 数据 的 磁带 机 不 计 在 内 )。 这 些 磁 
带 机 必须 允许 以 向 前 和 癌 后 来 进行 读 入 ,而 且 以 数 0,1,…,p 标记 。 下 列 项 是 必需 
的 : 

DLjyj],0 达 ;三 P 假设 出 现在 磁带 ; 末端 的 虚拟 路 段 号 。 

A[1,j]，0 志 /二 L ,0 过 ;二 P 这 里 L 是 使 得 至 多 有 下 个 初 给 路 段 段 被 输入 的 
一 个 数 。 当 A[1,jj] = 之 0 时 ,名 义 上 长 度 为 P 的 一 个 路 段 出 现在 磁带 ) 上 ,这 对 
应 于 算法 操作 的 “级 /”。 如 果 天 为 偶 , 这 个 路 自 是 递增 的 ; 如果 & 为 奇 , 则 是 递 降 
的 。 当 ALi,j]<0 时 ,级 /不 使 用 磁带 j。 

“ 写 一 初始 路 段 到 磁带 ) 上 ”这 一 语句 ,为 下 列 操作 的 简 述 . 

置 A[7,jj<0。 如 果 输 入 已 穷尽 , 则 DLj]j] 增 1; 否则 在 磁带 ; 上 写 一 初始 路 段 

* 296 : 






5.4 外 部 排序 


(以 递增 的 次 序 )。 

“合并 到 磁带 ) 上 ”这 一 语句 为 下 列 操作 的 简 述 : 

如 果 对 于 所 有 i 关 ; ,DLi]>0, 则 对 所 有 i 关 ;7,DLil] 减 1 且 DLjj 加 1。 否 则 从 所 
有 使 DLi]=0 的 磁带 i(i 关 ;) 取 一 个 路 段 合并 到 磁带 ) 上 ,而 且 对 于 所 有 其 它 i 关 
7 ,DLij] 减 1。 


B1. [初始 化 ] 对 于 0 过; 三 P, 置 DLj]<0。 置 A[0,0j] 一 一 1,/< 一 0,g< 一 0。 然 后 
对 于 1 三 j 二 P, 写 一 个 初始 路 段 到 磁带 ; 上。 
B2.[ 输 入 完成 ?] (这 时 磁带 g 为 空 , 而 且 其 它 磁带 至 多 每 条 包含 一 个 路 段 ) 如 
果 还 有 输入 , 则 进行 步骤 B3。 但 如 果 输 入 已 穷尽 , 则 重 绕 所 有 使 得 AL0 ,7 
为 偶 的 磁带 j 关 9g ,然后 在 刚才 重 绕 的 磁带 上 向 前 读 , 而 在 其 它 的 磁带 上 癌 
后 读 ,以 此 方式 合并 到 磁带 g。 这 就 完成 了 排序 ,是 按 递增 次 序 排 列 的 输 
出 就 在 磁带 g 上 。 
B3.[ 开 始 新 的 级 ] 置 /一 1+1,r<gqg,s<0 且 g<-(g+1)mod TT。 对 于 1 过 j 过 
下 -2, 各 写 一 初始 路 段 到 磁 珊 (9+7)mod 工 上 (于 是 在 除 磁 市 g 和 7 之 外 
的 每 条 磁带 上 ,各 写 一 个 初始 路 段 ) 。 置 AL,aje 一 -1 和 AL,r]< 熏 一 2。 
B4.[ 准 备 好 合并 了 吗 ?] 如 果 AL 一 1,g] 关 ;, 则 转 回 步骤 B3。 
BS.[ 合 并 ] (这 时 对 所 有 的 j 了 关 g,j 关 rr,AL1-1,g9]=All,j]==s) 合并 到 侯 市 
r ,并 向 后 读 ( 见 上 述 此 操作 的 定义 )。 然 后 置 yes*+1, < 一 一 1,AL rr 和 
5 以 及 A[ 4,gj 一 一 1。 置 7 一 (2g 一 r)modT( 一 般 说 来 , 当 ;为 偶 时 我 们 有 7 
二 (g 一 1)mod 本 , 当 ;为 奇 时 += (g +1)mod TT)。 
B6.[ 本 级 完成 了 吗 ?] 如 果 1 =0, 则 转 到 B2。 否 则 如 果 对 于 所 有 7 天 gw 和 j 关 
r,A[L,j]=s, 则 转 到 B4。 否 则 返回 B3。 | 
我 们 可 以 使 用 一 个 “递归 归纳 法 ”风格 的 证 明 来 证 明 这 个 算法 是 正确 的 ,正如 对 
算法 2.3.1T 所 做 的 那样 。 假 设 我 们 以 1!= L160,g= qo0,s, = Allo,(go+1)mod 个 ]， 
以 及 = Alio,(go 一 1)mod T] 开 始 步 又 B3; 并 进而 假设 ;, =0, 或 ;_ =1, 或 ， 
=2, 或 5 =3, 或 …… 。 用 归纳 法 能 够 验证 这 个 算法 最 终 将 达到 BS 而 无 须 改 变 A 
的 第 0 到 第 Lo 诸 行 , 而 且 !/=Lo+li,og=aoo+tl,r=aoo 及 SS= ,或 5 ,这 里 如 果 ;， 
=0 或 (s ,=2 或 ;_ 闫 1) 或 (s ;=4 和 ss 天 1,3) 或 …… 时 ,我 们 选择 正 号 + ,而 如 果 
(s_=1 和;, 关 0) 或 (s_ =3 和 35, 天 0,2) 或 …… 时 ,我 们 选择 负 号 - 。 这 里 简 述 的 
证 明 并 不 是 最 好 的 ,因为 这 个 算法 本 身 就 是 以 一 种 适合 于 实现 而 不 是 验证 的 方式 来 
陈述 的 。 
图 78 借助 于 每 个 记录 作为 初始 路 段 数 S 的 函数 被 合并 的 平均 次 数 , 示 出 了 算 
法 B 的 效率 ,其 中 假定 初始 路 段 都 近似 地 等 长 (对 于 多 阶段 和 级 联 排序 ,对 应 的 图 出 
现 于 图 70 和 图 74 中 )。 在 制作 这 张 图 时 ,已 经 使 用 了 习题 3 中 提 到 的 一 点 改进 。 
基于 我 们 在 5.4.4 小 节 中 讨论 的 先 序 合并 理论 ,R.M.Karp 建立 了 称 做 回旋 排 
序 (gyrating sort) 的 一 个 相关 方法 ;参见 由 Randall Rustin 编著 的 Combinatorial Algo- 
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rithms (Algorithmics Press,1972),21~29。 

向 前 读 振荡 排序 型 式 看 来 要 求 同 后 读 的 能 力 ,因为 我 们 在 合并 新 近 输 入 的 短 
路 段 时 ,也 需要 在 某 处 存 人 长 路 段 。 然 而 , M.A. Goetz[ Proc. AFIPS Spring Joint. 
Comp. Conf. 25(1964) ,5S99 一 607] 发 现 了 一 个 仅仅 使 用 向 前 读 和 简单 的 重 绕 , 就 能 
实现 振 功 排序 的 方法 。 他 的 方法 同 这 一 章 中 我 们 已 经 见 到 过 的 其 它 方案 ,在 以 下 两 
方面 有 根本 的 不 同 : 

a) 数据 有 了 时 写 在 磁带 的 前 端 ,同时 知道 在 磁带 中 间 的 现存 数据 未 被 破坏 。 

b) 所 有 的 初始 字符 串 都 有 一 固定 的 极 大 长 度 。 
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图 78 交替 排序 的 效率 ,其 中 使 用 了 算法 B 和 习题 3 的 技术 


条 件 a) 违 背 了 我 们 已 经 假定 的 、 作 为 向 前 读 特 征 的 “-ffo” 性 质 , 但 是 只 要 在 路 
段 之 间 保 留 有 充分 数量 的 空白 磁带 而 且 在 适当 的 时 候 忽 略 “ 奇 侦 错 ”的 话 , 则 这 仍 能 
可 靠 地 实现 。 条 件 b) 同 有 效 地 使 用 替代 选择 看 来 不 大 相 容 。 

作为 一 个 算法 ,而 不 是 一 个 物理 设备 来 获得 专利 的 最 早 算法 之 一 [U.S. Patent 
3380029(1968) ] ,Goetz 的 向 前 读 振 划 排 序 有 稍微 含糊 的 特性 ;除非 成 功 地 争辩 , 否 
则 如 果 没 有 获得 专利 人 的 同意 ,这样 一 个 专利 就 使 得 在 一 个 程序 中 使 用 这 个 算法 是 
非法 的 。 几 年 后 ,IBM 支持 Bencher 的 向 后 读 振荡 排序 技术 申请 为 专利 [ 唉 ,现在 我 
们 只 能 说 ,发 现 一 个 算法 的 兴奋 就 足以 令 人 满意 ,已 经 成 了 一 个 终结 ! 所 幸 的 是 , 振 
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荡 排 序 并 非特 别 好 。 我 们 希望 ,发 明 最 好 算法 的 有 公益 心 的 人 们 ,继续 使 他 们 的 思 
想 免费 让 人 们 使 用 。 当 然 ,那些 把 新 技术 完全 保密 的 人 , 比 起 把 算法 的 出 现 作为 一 
个 时 间 段 内 的 个 人 财产 者 还 要 差 得 多 j。 

Goetz 方 法 的 中 心思 想 ,是 把 事情 安排 成 使 得 每 条 磁带 以 相对 长 度 为 1 的 一 个 
路 段 开始 , 紧 接 着 是 相对 长 度 为 PP 的 ,然后 相对 长 度 为 已 的 ,等 等 。 例 如 , 当 T=5 
时 ,排序 开始 如 下 (利用 “. “指出 在 每 条 磁带 上 当前 读 写 头 的 位 置 ): 


操作 TI1 T2 T3 T4 T5 代价 注释 

阶段 1 分 布 Al Al Al .Al Ai. 5 [TS 尚未 重 绕 ] 
阶段 2 合并 M1. A1. A1. M1. 4A144 4 [现在 全 都 重 绕 | 
阶段 3 分 布 .Ai .Al ‘Al Ai1. :AlAs 4 [T4 尚未 重 绕 ] 
阶段 4 合并 A1. A M1 AiAs. A1. A4 4 [现在 全 都 重 绕 
阶段 5 分 布 Ai1. .Al Ai. .AIA4. -AIA4 4 [T3 尚未 重 绕 ] 
阶段 6 合并 M1. A AlAs. Mi.A1 Xi.As 4 [现在 全 都 重 绕 ] 
阶段 7 分 布 Al Ai -AlAs .AiA41 .4IA4 4 [T2 尚未 重 绕 ] 
阶段 8 合并 i A1A， MA ‘Ai.A1 M.As 4 [现在 全 都 重 绕 ] 
阶段 9 分 布 Ai .AiIA1， .44 .AI4 .AIA 4 [Ti 尚未 重 绕 ] 
阶段 10 合并 AlAs. i.A:1 MA NA Mi.A4 4 [不 重 绕 | 

阶段 11 合并 AlA4Aie. XA. 准 1 准 4 1 入 1. 16 [现在 全 都 重 绕 | 


等 等 。 在 阶段 1, 当 T2 接受 它 的 输入 时 ,TIl 正 被 重 绕 ,然后 当 T3 接受 它 的 输入 时 ， 
T2 正 被 重 绕 ,等 等 。 最 后 , 当 输 入 穷尽 时 ,虚拟 路 段 将 开始 出 现 , 有 时 有 必要 相像 成 
它们 已 经 以 全 长 明显 地 写 到 磁带 上 。 例 如 ,如 果 S= 18, 则 在 磁带 T4 和 T5 上 的 诸 
A 在 阶段 9 期 间 都 将 是 虚拟 的 ; 当 阶 段 10 从 T2 到 T3 合并 到 Tl 时 ,在 T4 和 人 T5 
上 ,我 们 将 向 前 跳 , 因 为 我 们 必须 转 到 T4 和 T5 上 的 A4 那里 ,以 便 为 阶段 11 做 准 
备 。 另 一 方面 ,T1 上 的 虚拟 路 段 A| 则 不 必 明 显 地 出 现 。 因 此 ,这 个 “压轴 戏 ”" 有 一 
点 技巧 。 
下 一 节 有 此 方法 的 男 一 个 例子 。 


习 十 


1.[22] 正文 中 说 明了 对 于 T=5 和 S=16 的 Sobel 的 最 初 的 振荡 排序 。 试 给 出 一 个 算法 的 精确 描 
述 ,该 算法 推广 这 个 过 程 ,对 人 = P+1 之 3 磁带 上 的 S= Pr 个 初始 路 段 进行 排序 ,并 力求 简单 。 

2.[24] 在 Sobel 原先 的 方法 中 ,如 果 S=6, 则 我 们 可 以 假设 S= 16 并 假设 存在 11 个 虚拟 路 
段 。 这 样 在 正文 的 例子 中 ,阶段 3 将 置 虚拟 路 段 Au 到 T4 和 TS 上 ,阶段 4 将 把 T2 和 T3 上 的 Al 
合并 为 T1 上 的 一 个 D,。 阶 段 5 一 8 将 不 做 什么 ;而 阶段 9 将 在 T4 上 产生 Ae。 更 好 的 是 在 阶段 
3 之 后 ,就 重 绕 T2 和 T3, 然 后 通过 三 路 合并 立即 在 T4 上 产生 A。 

说 明 怎 样 来 修改 习题 1 的 算法 ,使 得 当 S 不 是 PP 的 完全 乘 方 时 ,可 得 到 与 此 类 似 的 一 个 改进 
了 的 结果 。 
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3.[29] 假定 有 9 个 初始 路 段 , 编 制 一 张 说 明 下 =3 时 算法 B 之 特性 的 图 表 。 证 明 这 个 过 程 
有 一 处 显然 是 低 效 的 ,然后 对 算法 B 进行 修正 ,以 弥补 这 一 情况 。 
4.[21」 步骤 B3 置 AL,9] 和 az 为 负 的 值 。 说 明 这 两 个 情况 之 一 总 是 多 余 的 ,因为 对 应 
的 有 & 表 中 的 项 是 决 不 会 被 查找 的 。 
5.14425] 设 S 是 出 现在 算法 B 的 输入 中 的 初始 路 段 数 ,S 的 哪些 值 使 得 在 步骤 B2 中 不 需 
要 重 绕 ? 


$5.4.6 关于 磁带 合并 的 实际 考虑 


贱 烦 的 事情 现在 来 了 :至 今 我 们 已 经 讨论 了 各 类 合并 型 式 ,现在 来 看 看 它们 如 
何 真正 地 应 用 于 计算 机 和 磁带 的 实际 配置 ,并 且 以 有 意义 的 方式 来 对 它们 进行 比 
较 。 对 于 内 部 排序 的 研究 表明 ,仅仅 通过 计算 它 执行 的 比较 的 数目 ,还 不 能 适当 地 
判断 一 个 排序 方法 的 效率 ;类 似 地 ,也 不 能 仅仅 通过 知道 它 对 于 数据 扫描 的 次 数 ,就 
适当 地 评价 一 个 外 部 排序 方法 。 

在 这 一 闻 里 ,将 讨论 典型 磁带 机 的 特征 ,及 其 对 初始 分 布 和 合并 的 影响 。 特 别 
是 ,我 们 将 研究 缓冲 区 分 配 的 某 些 方案 ,及 其 对 于 运行 时 间 的 相应 影响 。 我 们 也 将 
简单 地 考虑 排序 生成 器 程序 的 构造 。 

磁 市 如 何 工作 不 同 厂家 所 提供 磁带 机 的 特征 有 很 大 不 同 。 为 方便 起 见 ,我 们 
将 定义 一 个 假想 的 MIXT 磁带 机 ,在 编写 本 书 时 ,对 于 正 被 制造 的 设备 来 说 , 它 是 相 
当 典 型 的 。 

MIXT 以 75in/s 的 速度 , 读 和 写 每 英寸 的 800 个 字符 。 这 意味 着 , 当 磁 带 活动 时 ， 


每 1/60ms, 或 16 所 pss, 读 或 写 一 个 字符 。 在 1970 年 可 以 买 到 的 实际 的 磁带 机 ,其 密 


度 为 每 英寸 200 个 字符 到 1600 个 字符 ,而 其 速度 是 从 37 3 ins 到 150in/s, 因 此 它 


们 的 有 效 速度 是 MIXT 的 1/8 倍 到 4 倍 。 

当然 ,在 5.4 节 接近 开始 的 地 方 我 们 就 已 经 注意 到 ,一 般 地 说 ,磁带 现在 是 非常 
过 时 了 。 但 是 在 磁带 排序 曾经 非常 重要 的 那 数 十 年 间 , 我 们 曾经 上 了 许多 课 , 今 天 
这 些 谍 仍然 是 有 价值 的 。 因 此 ,在 这 里 我 们 主要 关心 的 并 不 是 一 些 特定 的 答案 ,而 
是 学 习 如 何以 合理 的 方式 来 把 理论 同 实 践 结合 起 来 。 方 法 学 要 比 现象 学 重要 得 多 ， 
因为 不 管 技 术 如 何 变 化 ,问题 求解 的 原理 都 一 直 有 用 。 如 果 读 者 暂时 地 把 他 们 自己 
移植 到 20 世纪 70 年 代 的 思维 方式 中 , 那 他 们 将 会 从 这 部 分 内 容 获 得 最 大 神 益 。 因 
此 让 我 们 假定 我 们 仍然 生活 在 那 消逝 了 的 年 代 吧 1 

以 当时 的 观点 来 看 ,须要 记 住 的 重要 事实 之 一 就 是 ,磁带 有 一 个 严格 限定 的 容 
量 。 每 卷 人 磁带 的 长 不 超过 2400 英尺 ;因此 ,每 一 MIXT 磁带 卷 至 多 可 以 容纳 
23 000 000 个 字符 左右 , 而 读 完 全 部 这 些 字 符 要 花费 23 000 000/3 600 000 > 
6.4min。 如 果 必 须 对 更 大 的 文件 排序 ,一 般 说 来 最 好 一 次 对 一 整 卷 进行 排序 ,而 后 再 
把 排 好 序 的 卷 合 并 ,以 避免 多 余 的 磁带 操作 。 这 意味 着 ,我 们 所 研究 过 的 实际 出 现 
在 合并 型 式 中 的 初始 路 段 的 个 数 S, 不 可 能 是 很 大 的 。 我 们 不 可 能 找到 S > 5000, 即 
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使 对 于 一 个 非常 小 的 只 产生 5000 个 字符 长 的 初始 路 段 的 内 存 也 是 如 此 。 因 此 给 出 
当 S 一 co 时 算法 的 渐 近 有 效 性 公式 主要 是 在 学 术 上 有 意义 。 

数据 以 块 (block) 出 现在 磁带 上 ( 见 图 79) ,每 个 读 / 写 指令 传送 一 个 块 。 块 通常 
称 为 “记录 ” ,但 我 们 将 避免 使 用 这 一 术语 ,因为 它 同 “对 一 个 由 “记录 "组 成 的 文件 排 
序 " 中 的 “记录 ”一 词 相 冲 突 。 在 50 年 代 所 写 的 早期 的 许多 排序 程序 中 ,这 种 区 分 是 
没有 必要 的 ,因为 每 个 块 写 一 个 记录 ;但 是 我 们 将 看 到 ,在 磁带 上 的 每 个 块 内 多 放 几 
个 记录 通常 是 有 利 的 。 







块 间 的 间隔 


re 


图 79 有 可 变 大 小 的 块 的 磁带 


在 相 邻 的 块 之 间 有 一 个 480 个 字符 位 置 长 的 块 间 间隔 ,为 的 是 允许 磁带 在 个 别 
的 读 或 写 指令 之 间 停 止 和 启动 。 块 间隔 使 得 每 卷 磁 带 的 字符 数 减 少 ,其 多 少 与 每 块 
的 字符 数 相关 ( 见 图 80); 同 样 ,每 秒 传输 的 平均 字符 数 也 减少 了 ,因为 磁带 是 以 相 
当 固 定 的 速度 移动 的 。 


20 000 000 


10 000 000 


每 条 人 磁带 字符 数 





0 1000 2000 3000 4000 5000 
每 块 字符 数 


图 80 作为 块 大 小 的 函数 ,每 卷 MIXT 磁带 的 字符 数 


许多 “旧式 的 ”计算 机 只 都 有 相当 小 的 固定 的 块 大 小 。 如 第 一 章 中 所 定义 的 那 
样 ,它们 的 设计 被 反映 在 MIX 计算 机 中 ,MIX 计算 机 总 是 读 和 写 100 字 的 块 。 这 意味 
着 每 块 大 约 500 个 字符 ,由 于 每 个 间隔 为 480 个 字符 ,因此 几乎 浪费 一 半 的 磁带 ! 
20 世纪 70 年 代 的 大 多 数 机 器 都 允许 块 的 大 小 可 变 , 所 以 下 面 我 们 将 讨论 选择 适当 
块 大 小 的 问题 。 

在 一 个 读 或 写 操作 末了 ,磁带 机 以 全 速 “ 滑 过 ”间隔 的 头 66 个 (左右 的 ) 字 符 。 
如 果 在 这 期 间 开 始 对 同一 条 磁带 做 下 一 个 操作 , 则 磁带 的 运动 无 中 断 地 继续 下 去 。 
但 如 果 下 一 个 操作 不 能 相当 快 地 到 来 , 则 这 条 磁带 将 停止 ,而 且 它 也 需要 一 些 时 间 
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来 加 速 到 全 速 以 进行 下 一 个 操作 。 停 启 时 间 的 延迟 加 在 一 起 为 Sms, 停 止 2ms 和 启 
动 3ms( 见 图 81)。 因 此 ,如 果 我 们 错过 了 继续 全 速 读 的 机 会 , 则 对 运行 时 间 的 影响 
实质 上 和 在 块 间 隔 中 有 780 个 字符 (而 不 是 480 个 字符 ) 是 一 样 的 。 





人 12 
三 10 一 一 
时 9| 
到 8 上 非 连续 读 写 的 最 小 倍 /月 时 间 
这 “| 

0 >t 
总 5 

4 
卫 2 则 连续 的 读 / 写 是 可 能 的 
| 人 
六 0 

0 1 2 3 4 S 6 7 8 





由 上 一 个 操作 的 完成 到 磁带 控制 器 下 一 指令 的 时 间 (ms) 


图 81 怎样 计算 停止 /启动 延迟 时 间 
(加 到 用 于 读 或 写 块 及 间隔 的 时 间 上 ) 


现在 我 们 考虑 重 绕 操作 。 可 惜 ,对 于 给 定 的 字符 数 ,一 般 难 于 表征 重 绕 所 需 
的 确切 时 间 。 在 某 些 机 器 上 ,有 一 个 高 速 的 重 绕 , 它 仪 当 n 大 于 5 百 万 左右 时 才 可 
以 应 用 ;对 于 较 小 的 值 , 重 绕 则 以 通常 的 读 / 写 速度 进行 。 在 其 它 机 如 上 ,有 一 个 
特殊 的 发 动机 用 来 控制 所 有 的 重 绕 操 作 ; 它 逐渐 地 加 快 磁带 卷 达 到 每 分 钟 某 一 转 
速 ,然后 当 其 停止 时 即 自动 刹车 。 而 实际 的 磁带 速 对 于 全 卷 都 在 变化 。 为 了 简便 起 
见 ,我 们 将 假定 MIXT 需要 max(30,n/150)ms 重 绕 ”个 字符 位 置 (包括 间 隅 在 内 )， 
此 即 写 它们 所 花 时 间 的 大 约 3/5。 这 是 对 于 许多 实际 磁带 机 行为 的 相当 好 的 近似 ， 
在 实际 的 磁带 机 中 , 读 写 时 间 同 重 绕 时 间 之 比 一 般 都 在 2 和 3 之 间 , 但 是 这 还 未 充 
eo 82 ) 。 





以 2.5 yA So 











全 

县 

| pd 
Z si 组 合 的 
LT 低速 /高 速 重 绕 


5 000 000 15 000 000 23 000 000 
从 装 入 点 开始 的 字符 数 


图 82 两 个 通常 使 用 的 重 绕 技术 的 近似 运行 时 间 
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初始 的 装 磁 带 和 /或 重 绕 都 把 一 条 磁带 定位 在 “ 装 和 点 ”处 ,而 在 装 和 人 点 处 开始 
的 任何 读 或 写 操 作 都 需要 额外 的 110ms 的 时 间 。 当 这 条 磁带 不 在 装 入 点 处 时 ,可 以 
向 后 读 ; 在 一 个 向 前 的 操作 之 后 的 任何 向 后 操作 ,或 者 在 一 个 向 后 操作 之 后 的 任何 
向 前 操作 ,都 需 附 加 32ms 的 时 间 。 


再 论 合 并 ”现在 让 我 们 再 次 考察 P 路 合并 的 过 程 ,同时 着 重 于 考察 输入 和 和 输 
出 的 活动 ,并 假定 P+1 台 磁 带 机 正在 用 于 输入 文件 和 输出 文件 。 我 们 的 目标 是 使 
输入 /输出 操作 尽 可 能 多 地 彼此 重 个 以 及 同 程序 的 计算 重 秋 ,以 使 整个 合并 时 间 极 
小 化 。 

考虑 下 列 特殊 情况 是 有 益 的 :在 这 种 情况 下 ,对 于 可 能 的 同时 性 设置 了 严格 的 
限制 。 假 设 

a) 在 任何 一 个 时 刻 ,至 多 一 条 磁带 可 写 。 

b) 在 任何 一 个 时 刻 ,至 多 一 条 磁带 可 读 。 

c) 仅 当 谈 和 写 操作 同时 被 启动 后 , 读 、 写 和 计算 可 同时 进行 。 
结果, 尽管 加 上 了 这 3 个 条 件 ,2P 个 输入 缓冲 区 和 2 个 输出 缓冲 区 的 一 个 系统 ,就 
足以 使 磁带 保持 它 实 际 上 最 快 的 速度 来 运行 ,除非 计算 机 非常 之 慢 。 注 意 a) 实 际 上 
不 是 一 个 限制 ,因为 仅 有 一 条 输出 磁带 。 其 次 ,输入 的 数量 等 于 输出 的 数量 ,所 以 平 
均 说 来 ,在 任何 给 定 的 时 刻 仅 有 一 条 磁带 正在 读 ;如 果 条 件 b) 不 满足 , 则 必定 有 一 
段 时 间 没 有 输入 。 于 是 ,如 果 我 们 保持 输出 磁带 忙碌 , 则 就 能 使 合并 的 时 间 极 小 化 。 

一 项 称 为 预报 (forecasting) 的 重要 技术 给 了 我 们 所 希望 的 效果 。 在 我 们 正在 进 
行 一 个 P 路 合并 的 同时 ,一 般 地 有 PP 个 当前 的 输入 缓冲 区 ,它们 被 用 作 数 据 源 ;其 
中 的 某 些 比 其 余 的 更 满 些 ,这 依赖 于 它们 的 数据 已 有 多 少 被 扫描 。 如 果 大 约 在 同一 
时 间 它 们 全 都 变 空 了 , 则 在 可 以 往 下 进行 之 前 ,将 需要 大 量 地 读 ,除非 我 们 事先 已 经 
预见 到 这 个 意外 事件 。 幸 而 ,通过 简单 地 考察 每 个 缓冲 区 中 的 最 后 一 个 记录 ,总 有 
可 能 知道 哪个 缓冲 区 将 首先 变 空 。 最 后 记录 有 最 小 关键 字 的 缓冲 区 将 总 是 头 一 个 
变 空 ,不 管 任何 其 它 键 码 的 值 是 什么 。 所 以 我 们 总 是 知道 哪 一 个 文件 将 是 下 一 条 输 
人 指令 的 源 文件 。 下 列 算 法 详细 地 叙述 了 这 个 原理 。 


算法 下 (浮动 缓冲 区 的 预报 ) 本 算法 在 P 宇 2 时 控制 长 输入 文件 的 已 路 合并 
期 间 的 缓冲 区 安排 。 假 定 输入 磁带 和 文件 编号 为 1,2,…,P。 这 个 算法 使 用 2P 个 
输入 缓冲 区 IL1],… ,I[2P]; 两 个 输出 缓冲 区 0[0] 和 011], 以 及 下 列 辅助 列表 项 : 
A[jj] ,1 志 7 夺 2P;: 如 果 IL jj] 可 用 作 输 入 则 为 0, 否 则 为 1; 
BLi1,1 研 iP: 包含 迄今 从 文件 i 读 入 的 最 后 块 的 缓冲 区 ; 
c[i],1 志 i 三 P; 当前 用 来 存放 来 自 文件 i 的 输入 的 缓冲 区 ; 
L[i],1 志 i 过 P; 迄今 从 文件 ; 读 和 人 的 最 后 一 个 关键 字 
sj,1<) 科 2P: 当 I[j] 变 为 空 时 使 用 的 缓冲 区 。 
这 里 描述 的 算法 并 不 终止 ,终止 它 的 适当 方式 在 以 下 讨论 。 
Fl1. [初始化] 对 于 1 委 ; 委 已 ,从 磁带 i 读 第 一 个 块 到 缓冲 区 I[i], 置 ALi] 一 1， 
ALP+ij<-0,B[i]<i,CLli] 一 i, 并 置 Lii] 为 在 缓冲 区 I[i] 中 最 后 一 个 记 
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录 的 键 码 ,然后 找 mx 使 得 Limj]=miniL(1),…,L(P)}; 并 置 t<0,k<—P 
+1, 开 始 从 磁带 m 读 到 缓冲 区 I[&]。 

F2.[ 合 并 ] 合并 来 自 缓冲 区 I[LC[1]],…,I[C[P]] 的 记录 到 o[:], 直 到 of 1 ] 满 
了 为 止 。 如 果 在 这 过 程 期 间 一 个 输入 缓冲 区 ,比如 说 I[C[i]] 变 空 而 of #1 
仍 未 满 , 则 置 ALC[i]]<0,C[i]<-SLC[i]], 并 继续 合并 。 

F3.| 完 成 输入 /输出 ] 等 候 直 到 以 前 的 读 ( 或 读 / 写 ) 操 作 完 成 。 然 后 置 A[&]<- 
1,S[BLm]]<-k,B[m]<&, 并 置 L[ mj] 成 为 I[k] 中 最 后 记录 的 键 码 。 

F4.[ 预 报 」 求 m 使 得 LLmx]=min|L[1],…,LLP]| ,并 求 使 得 A[k]=0。 

FS .| 读 / 写 ] 开始 从 磁带 m 读 到 缓冲 区 I[&] ,并 从 缓冲 区 o[ 1 ] 写 到 输出 磁带 ， 
然后 置 :<-1 -+ 并 返回 到 F2。 | 





F3. 完成 输入 /输出 


图 83 浮动 缓冲 区 的 预报 


假定 磁带 上 的 每 个 块 仅 含 两 个 记录 ,图 84 的 例子 示 出 当 P=2 时 ,预报 是 如 何 
进行 的 。 所 示 的 是 每 次 我 们 达到 步骤 F2 的 开始 处 时 输入 缓冲 区 的 内 容 , 算 法 下 实 
际 上 形成 已 个 缓冲 区 队列 ,而 以 C[i] 指 向 第 i 个 队列 的 前 头 ,B[i] 则 指向 队列 尾 。 
同时 ,s[j ] 指 向 缓冲 区 I[j] 的 后 继 ; 这 些 指针 如 图 84 中 的 箭头 所 示 ,第 1 行 说 明了 
初始 化 之 后 的 状态 :对 于 每 个 输入 文件 有 一 个 缓冲 区 ,而 另 一 个 块 正 从 文件 1 读 入 
(因为 03<05)。 第 2 行 所 示 为 在 合并 了 第 一 个 块 之 后 的 状态 :我 们 正在 输出 包含 


“01 021" 的 一 个 块 ,并 正在 从 文件 2 输入 下 一 个 块 (因为 05<09)。 注 意 ,在 第 3 


行 ,4 个 缓冲 区 中 的 3 个 实际 上 都 被 文件 2 占用 ,因为 我 们 正 从 该 文件 读 , 而 且 在 它 
的 队 例 中 已 经 有 一 个 满 缓 冲 区 和 一 个 部 分 满 缓冲 区 。 这 种 “浮动 缓冲 区 ”的 安排 是 
算法 下 的 一 个 重要 特性 ,因为 如 果 选 择 文件 1 而 不 是 文件 2 作为 第 3 行 的 输入 , 那 
么 我 们 就 会 无 法 进行 到 第 4 行 。 
为 了 证 明 算法 下 是 正确 的 ,必须 证 明 两 点 : 
) 总 存在 一 个 输入 缓冲 区 可 以 利用 ( 即 在 步骤 F4 中 总 能 找到 一 个 )。 
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文件 1 包含 [07 05]T04 [IISTIe ITT 一 
文件 ?包含 [52 05[[05 07T[o8 10TT12 14T 


行 号 文件 1 的 缓冲 区 文件 2 的 缓冲 区 De 
文件 1 
2 文件 2 
; CE 
4 —| 01 文件 1 
5 文件 
6 | 文件 1 
: 文件 3 


图 84 按照 算法 下 的 缓冲 区 队列 


ii) 如 末 在 合并 时 一 个 输入 缓冲 区 被 穷尽 , 则 它 的 后 继 者 已 经 出 现在 内 存 中 ( 即 
在 步骤 P2 中 的 SLc[L; 是 有 意义 的 )。 

假设 站 为 假 ,于 是 在 我 们 到 达 步 又 F4 的 某 个 时 刻 所 有 缓冲 区 都 不 能 利用 。 每 
次 到 达 该 步骤 时 ,在 所 有 缓冲 区 中 未 处 理 的 数据 总 数量 恰恰 是 P 个 缓冲 负载 , 即 如 
朱 重 新 分 布 这 些 数 据 , 则 它们 恰好 足够 填 满 P 个 缓冲 区 ,因为 我 们 正在 以 相同 的 速 
度 输入 和 输出 数据 。 某 些 缓冲 区 仅仅 是 部 分 地 满 了 ;但 对 于 每 个 文件 ,至 多 有 一 个 
缓冲 区 是 部 分 地 满 的 ,所 以 至 多 有 P 个 缓冲 区 是 部 分 地 满 的 。 由 假设 ,所 有 2P 个 
缓冲 区 都 不 可 利用 ,所 以 其 中 至 少 有 已 个 必须 是 完全 满 的 。 这 仅 当 P 个 是 满 的 和 
P 个 是 空 的 才 会 发 生 ,否则 我 们 将 有 太 多 的 数据 。 但 在 任何 一 个 时 刻 都 至 多 只 能 有 
一 个 缓冲 区 是 不 可 利用 的 和 空 的 ,因此 iD 不 能 为 假 。 

假设 ii 为 假 , 于 是 我 们 在 内 存 中 没有 对 于 某 个 文件 的 未 处 理 的 记录 ,但 当前 的 
输出 缓冲 区 还 不 满 。 由 预报 原理 ,所 有 其 它 的 文件 不 能 有 多 于 一 个 的 数据 块 ,因为 
在 任何 其 它 文 件 上 的 缓冲 区 都 被 穷尽 以 前 ,除非 需要 某 个 块 时 我 们 才 读 人 该 块 。 因 
此 未 处 理 的 记录 和 总共 至 多 等 于 已 -1 个 块 ; 加 上 未 填 满 的 输出 缓冲 区 ,将 导出 的 内 
存 中 的 数据 量 少 于 已 个 缓冲 负载 ,矛盾 。 

这 个 论证 确立 了 算法 下 的 正确 性 ,而 且 它 也 指出 了 出 现 病态 情况 的 可 能 性 ,在 
这 些 病态 情况 下 ,本 算法 仅 勉强 地 避免 灾难 。 我 们 未 曾 提 及 的 重要 一 点 , 即 关 于 相 
等 键 码 的 可 能 性 ,在 习题 5 中 讨论 。 另 外 也 请 参见 习题 4, 它 讨论 了 P=1 的 情况 。 

如 采 刚 刚 读 入 的 块 是 一 个 路 段 最 后 的 块 , 则 巧妙 地 结束 算法 下 的 一 种 方式 ,是 
在 步骤 F3 中 置 LLm ] 为 co (习惯 上 都 以 某 种 特殊 的 方式 来 指出 一 个 路 段 的 结束 )。 
在 读 了 所 有 文件 上 的 所 有 数据 之 后 ,我们 最 终 将 发 现在 步骤 F4 中 所 有 的 L 都 等 于 
% ;于 是 开始 读 每 个 文件 上 下 一 个 路 段 的 第 一 个 块 是 可 能 的 ,并 随 着 最 后 P+1 个 
块 的 输出 ,开始 下 一 个 合并 阶段 的 初始 化 。 
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因此 我 们 能 使 输出 磁带 实际 上 以 全 速 运行 ,而 无 须 在 同一 时 间 读 一 条 以 上 的 磁 
带 。 步 骤 Fl 中 出 现 了 这 一 规则 的 例外 情形 ,这 是 为 使 所 有 东西 都 从 开始 处 进行 ,所 
以 一 次 读 若 干 条 磁带 更 有 利 。 步 又 Fl 通常 都 可 安排 成 同 计算 的 以 前 部 分 重 琶 。 

考察 每 个 块 最 后 的 记录 ,来 预测 哪 一 个 缓冲 区 将 首先 变 空 的 思想 ,是 由 下 .下 . 
Holberton 于 1953 年 发 现 的 ,而 首先 发 表 这 项 技术 的 则 是 王 .H. Friend[JACM 3 
(1956),144 一 145,165]。 他 的 颇 为 复杂 的 算法 使 用 3P 个 输入 缓冲 区 ,每 个 输入 文 
件 专用 3 个 缓冲 区 。 算 法 下 通过 利用 浮动 缓冲 区 改善 了 这 一 点 ,允许 任何 一 个 文件 
一 次 要 求 多 达 P+1 个 输入 缓冲 区 ,但 总 数 决 不 多 于 2P 个 。 在 这 一 节 的 末尾 讨论 
了 使 用 少 于 2P 个 输入 缓冲 区 的 合并 。 在 5.4.9 节 讨 论 了 对 算法 下 的 某 些 有 趣 的 
区 

合并 型 式 的 特性 比较 ”现在 让 我 们 使 用 我 们 所 掌握 的 关于 磁带 和 合并 的 知识 ， 
来 比较 5.4.2 小 节 到 5.4.5 小 节 中 所 研究 的 各 种 合并 型 式 的 有 效 性 。 当 把 每 一 种 
方法 应 用 于 相同 的 任务 时 ,给 出 这 些 方法 的 细节 是 非常 有 益 的 。 下 面 ,我 们 就 来 考 
察 一 个 文件 的 排序 问题 ,该 文件 的 每 个 记录 包含 100 个 字符 ,同时 ,内 存 中 有 
100 000 个 字符 位 置 可 以 用 来 存储 数据 不 考虑 程序 和 它 的 辅助 变量 ,或 者 在 一 
个 选择 树 中 由 链接 所 占用 的 空间 ( 记 住 我 们 仍 假 定 在 内 存 容 量 很 小 的 那个 时 代 )。 
输入 以 随机 次 序 出 现在 磁带 上 ,每 块 有 5 000 个 字符 ,而 输出 以 同样 的 格式 出 现 。 
除了 包含 输入 磁带 的 磁带 机 外 ,还 有 5 条 “空白 磁带 "可 用 。 

有 待 排序 的 记录 总 数 为 100 000, 但 排序 算法 事先 并 不 知道 这 个 信息 。 

图 表 A 综述 了 把 10 个 不 同 的 合并 方案 应 用 到 这 批 数 据 时 发 生 的 动作 。 考 察 这 
个 重要 图 示 的 最 好 方式 是 想像 你 正在 观看 排序 的 进行 :从 左 到 右 缓 慢 地 扫描 每 行 ， 
假想 你 真正 能 看 6 条 磁带 的 读 、 写 、 重 绕 和 /或 向 后 读 ,如 同 图 中 所 指出 的 那样 。 在 
P 路 合并 期 间 , 输 入 磁带 被 移动 的 次 数 仅仅 是 输出 磁 禹 移动 次 数 的 1/P。 当 原来 的 
输入 磁带 已 经 完全 读 人 (又 已 重 绕 和 “ 锁 磁 带 ”) 时 ,图 A 假定 一 个 熟练 的 计算 机 操作 
员 仅 在 30s 内 即 印 下 它 并 且 以 一 条 空白 磁带 代替 。 在 例 2, 例 3 和 例 4 中 ,这 是 计算 
机 空闲 地 等 候 操 作 员 工作 的 “关键 通路 时 间 ”; 但 在 余下 的 例子 中 ,外 磁 带 和 重 装 操 
作 是 同 其 它 处 理 重 等 的 。 


例 1 向 前 读 的 平衡 合并 ”让 我 们 回顾 这 个 问题 的 说 明 ,记录 的 长 度 是 100 个 
字符 ,在 每 个 时 刻 有 足够 的 内 存 来 保持 1000 个 记录 ,而且 在 输入 磁带 上 每 个 块 包 含 
5000 个 字符 (50 个 记录 )。 全 部 共有 100 000 个 记录 (= 10 000 000 字符 = 2000 个 
块 )。 


对 于 中 间 文 件 我 们 自由 地 选择 块 的 大 小 ,一 个 6 磁带 的 平衡 的 合并 使 用 三 路 合 
并 ,所 以 算法 下 的 技术 要 求 8 个 缓冲 区 ,我 们 因此 可 以 使 用 每 个 含 1000/8 = 125 个 
记录 (=12 500 个 字符 ) 的 块 。 
初始 分 布 扫描 可 以 利用 替换 选择 (算法 $S.4.1R) ,而 且 为 了 保持 磁带 光滑 地 运 
行 ,我 们 可 以 使 用 每 个 有 50 个 记录 的 两 个 输入 缓冲 区 ,加 上 每 个 有 125 个 记录 的 两 
个 输出 缓冲 区 ,这 就 在 替换 选择 树 中 保留 了 650 个 记录 的 空间 。 央 此 大 多 数 初始 路 
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段 大 约 将 有 1300 个 记录 长 (10 或 11 个 块 ) ,结果 在 图 表 A 中 产生 了 78 个 初始 路 
段 ,最 后 一 个 要 短 些 。 

上 述 第 一 趟 合并 扫描 中 有 9 个 路 段 合 并 到 磁带 4, 而 不 是 在 磁带 4, 和 磁带 5 和 磁 
带 6 之 间 交 替 进 行 。 这 使 得 在 计算 机 操作 员 装 人 一 条 空白 磁带 到 第 6 台 磁 带 机 上 
的 同时 有 可 能 来 做 有 用 的 工作 ;因为 一 旦 已 经 完成 了 初始 分 布 就 知道 了 路 段 的 总 
数 ,这 个 算法 知道 [S/91 个 路 段 应 该 被 合并 到 磁带 4 ,然后 | (S 一 3)/9 | 个 到 磁带 5, 然 
后 [|(S 一 6)/9 | 个 到 磁带 6。 

利用 5.4.2 小 节 引 进 的 符号 ,对 于 这 个 例子 的 整个 排序 过 程 可 以 下 列 方 式 概括 
如 下 : 


126 126 126 _ 四 
_ _ _ 39 3? 38 
93 93 926! _ _ 
一 一 一 271 271 24! 
78) 一 一 一 一 一 
例 2 向 前 读 多 阶段 合并 图 表 A( 见 书 末 ) 中 的 第 二 个 例子 按照 算法 5.4.2D 
进行 多 阶段 合并 。 在 此 情况 下 ,我 们 进行 五 路 合并 ,使 得 存储 器 分 成 为 每 个 有 83 个 
记录 的 12 个 缓冲 区 。 在 初始 替换 选择 期 间 ,我 们 有 两 个 各 50 个 记录 的 输入 缓冲 区 
和 两 个 各 83 个 记录 的 输出 缓冲 区 ,在 树 中 保留 734 个 记录 ;所 以 这 次 初始 路 段 的 长 
大 约 是 1468 个 记录 (17 或 18 个 块 )。 所 示 的 状态 表明 得 到 S = 70 个 初始 路 段 ,最 
后 两 个 实际 上 分 别 仅 有 4 个 块 和 1 个 块 长 。 合 并 型 式 可 概括 为 


013118 013117 0183115 0I2112 0818 
145 114 112 18 _ 08142153 
1 1° 14 一 48 142153 
13 12 84 44 2153 
1! 一 16!19! 8 4 5? 
一 34: 19， 8! 41 51 


701 一 一 一 一 一 

多 奇怪 ,多 阶段 实际 上 比 不 甚 复杂 的 平衡 合并 多 花 大 约 25s! 关于 此 ,主要 有 两 
个 原因 : 

1) 平 衡 合 并 在 这 种 情况 下 特别 走运 ,因为 S=78 如 此 接近 于 3 的 一 个 完全 乘 
方 。 如 果 产 生 的 是 82 个 初始 路 段 , 则 平衡 合并 将 要 花费 一 趟 额外 的 扫描 。 

2) 多 阶段 合并 在 换 输 入 磁带 时 浪费 了 30s, 而 且 在 它 等 候 重 绕 操 作 完 成 的 同时 
总 共 花 去 5min 以 上 。 对 比 之 下 平衡 合并 需要 比较 少 的 重 绕 时 间 。 在 多 阶段 合并 的 
第 二 个 阶段 ,由 于 可 假定 磁带 6 上 的 8 个 虚拟 路 段 在 该 磁带 重 绕 时 即 存 在 ,因此 市 
省 了 13s, 但 是 并 不 出 现 其 它 的 重 绕 重 侠 。 因 此 ,多 阶段 法 失败 了 ,尽管 它 要 求 相当 
少 的 读 写 时 间 。 

例 3 向 前 读 级 联合 并 ”此 例 情况 类 似 于 前 例 , 但 是 使 用 算法 5.4.3C。 合 并 过 
程 可 概括 如 下 : 
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114 ] 15 112 114 115 
15 19 __ 114 1 132336 
S163 和 3 5362 _ 11 22 
一 122 6}! 181 181 16! 
70! 一 一 


记 住 ,通过 浏览 图 表 A, 观 看 每 一 个 例子 的 进行 情况 。 


例 4 分 磁带 的 多 阶段 合并 在 5.4.2 小 节 末 尾 描述 的 这 一 过 程 ,允许 重 杰 大 
多 数 重 绕 时 间 。 它 使 用 四 路 合并 ,所 以 我 们 把 内 存 分 成 10 个 100 个 记录 的 缓冲 区 ; 
在 替换 选择 树 中 有 700 个 记录 ,所 以 结果 形成 了 72 个 初始 路 段 。 最 后 的 路 段 叉 是 
非常 短 的 。 使 用 了 一 个 类 似 于 算法 5.4.2D 的 分 布 方案 ,之 后 接着 一 简单 但 稍微 特 


别 的 设置 虚拟 路 段 的 方法 : 

121 119 115 18 _ 021? 

02117 02115 02111 02114 __ 021944 
1413 11! 17 — 0244 021244 
110 18 14 02443241 1844 
16 14 _ 44 02443241 1444 
15 13 -~ 4431 01443241 1344 
12 加 3172 4431 423241 44 
1 一 317°13) 4 3 4 3 4 4 
一 13: 327-13: 4 3- 3 4 4? 
一 13 14- 713: 473， 3 4 4 
18: 13:14: 7'13) 3 4 一 
18 14" 13 一 一 27 


一 一 一 721 一 可 
结果 表明 ,这 是 图 表 A 中 所 有 不 向 后 读 的 例子 中 最 好 的 运行 时 间 。 因 为 S 绝 不 会 
达到 非常 之 大 , 故 有 可 能 研究 出 一 个 更 为 复杂 的 算法 , 它 以 一 个 甚至 更 好 的 方式 来 
设置 虚拟 路 段 ( 参 见 等 式 5.4.2-(26))。 


例 5 具有 重 绕 重 每 的 级 联合 并 ”尽管 支配 这 个 过 程 的 算法 要 简单 得 多 ,但 它 
却 几 乎 像 前 面 的 例子 一 样 快 地 运行 。 对 于 初始 分 布 ,我 们 像 在 算法 5.4.3C 中 那样 
简单 地 使 用 级 联 排序 方法 ,但 用 工 =5 来 代 蔡 工 =6。 然 后 每 个 "级 联 的 每 个 阶段 
错开 磁带 的 运行 ,使 得 我 们 通常 不 写 磁 带 ,除非 它 已 经 得 到 机 会 被 重 绕 过 了 。 这 个 


型 式 可 简略 地 写 为 : 
121 T22 119 110 加 _ 
14 17 有 _ 122235 410 
72 _ 83 7282 _ 4! 
一 26! 一 8! 22! 16! 
72! 一 一 


例 6 向 后 读 的 平衡 合并 此 例 类 似 例 1, 但 消去 了 所 有 的 重 统 : 
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由 于 例 1 中 重 绕 比 较 少 ,这 个 方案 不 比 向 前 读 的 情况 好 很 多 。 事 实 上 ,尽管 S=78 
是 较 好 的 值 , 但 它 实 际 比分 磁带 的 多 阶段 稍 慢 。 


例 7 向 后 读 多 阶段 合并 在 这 个 例子 中 , 仅 使 用 了 6 条 磁带 中 的 5 条 ,为 的 是 
消去 重 绕 时 间 和 更 换 输 入 磁带 。 于 是 ,仅仅 使 用 了 四 路 合并 ,而 且 缓 冲 区 的 分 配 就 
像 例 4 和 例 5 那样。 使 用 了 类 似 算法 5.4.2D 那样 的 分 布 ,但 路 段 的 方向 是 交替 的 ， 
磁带 1 固定 为 最 后 的 输出 磁带 。 首 先 把 一 个 递增 的 路 段 写 到 磁带 1 上 ;然后 把 递减 
的 路 段 写 到 磁带 2,3,4 上 ;然后 把 递增 的 路 段 写 到 磁带 2,3,4 上 ;然后 把 递减 的 路 
段 写 到 磁带 1,2,3 上 等 等 。 每 次 转换 方向 时 ,替换 选择 通常 产生 一 个 更 短 的 路 段 ， 
所 以 结果 形成 了 77 个 初始 路 段 ,而 不 是 例 4 和 例 5 中 的 72 个 。 

这 个 过 程 得 到 了 (22,21,19,15) 个 路 段 的 一 个 分 布 ,而 下 一 个 完全 的 分 布 为 
(29,56,52,44)。 习 题 5.4.4-5 注 明 了 怎样 生成 合并 数 串 ,以 使 生成 的 数 串 可 以 用 
来 把 虚拟 路 段 放 置 在 最 优 的 位 置 上 ;由 于 一 个 磁带 卷 的 有 限 性 ,确保 了 S 绝 不 太 
大 ,所 以 这 样 一 个 过 程 在 实际 上 是 可 行 的 。 因 此 ,图 表 A 中 的 例子 就 是 用 这 种 设置 
虚拟 路 段 的 方法 构造 的 (见习 题 7) ,在 所 有 图 示例 子 中 这 证 明 是 最 快 的 。 


例 8 向 后 读 级 联合 并 如同 例 7 中 那样 , 些 例 仅仅 使 用 5 条 磁 珊 。 这 个 过 程 
遵循 算法 5.4.3C, 使 用 重 绕 和 向 前 读 来 避免 一 路 合并 (因为 重 绕 在 MIXT 磁带 机 上 
比 读 人 要 快 两 倍 以 上 )。 所 以 分 布 和 例 6 一样 。 这 个 型 式 可 以 简单 地 概括 如 下 ,使 
用 来 表示 重 绕 : 


A?! AT AT AT 一 
Ai AT 一 D1D2D3 Ds 
AsA? As AS 一 D1Y 

一 也 17 Agy D;s D,l 


A7; 本 
例 9 向 后 读 振荡 排序 对 于 T=5 的 振荡 排序 (算法 5.4.5B), 可 以 使 用 如 例 
4, 例 5, 例 7 和 例 8 那样 的 缓冲 区 分 配 , 因 为 它 进行 四 路 合并 。 然 而 ,替换 选择 不 以 
同样 的 方式 进行 ,因为 恰 在 进入 每 个 合并 阶段 之 前 要 输出 一 个 长 度 为 700 的 (而 不 
是 1400 左右 的 ) 路 段 ,为 的 是 清 内 存 。 因 此 ,在 此 例 中 ,产生 85 个 路 段 ,而 不 是 72 
个 。 在 这 个 过 程 中 的 某 些 关键 步骤 为 
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一 Ai AAi AiAi Ai1Ai 
万 4 一 Al Ai Ai 
DD Ds Da Da Da Da 
Ds D, D, 一 Aig 
Da AiscD4D4 AieD4 Al6D4A Al6 
D4 Ali6D4D4 Ai6 DaD!1 Aie Ds Ais 
一 Al6D4 Al16D4 Al16 Al16Al13 
一 Al6D4 A 416A4 416An 
Al6 Al6A4 Ali6A4 AisA13 
站 37 一 Ai6Y Ailel Aiel 
Asgs | 


例 10 向 前 读 振 荡 排 序 在 此 最 后 的 例子 中 ,不 使 用 替代 选择 ,因为 所 有 的 初 
始 路 段 都 必须 是 相同 长 度 的 。 因 此 每 当 需 要 一 个 初始 路 段 时 , 占 满 整个 内 存 的 
1000 个 记录 被 内 部 排序 ;这 使 得 S = 100。 在 这 过 程 中 某 些 关键 步骤 为 


Al Ai Ai Al Al 
一 一 一 一 AiAs 
Ai Al Al Al AiA， 
AiAs 淮 1A4 
一 一 一 AlAs AiA， 
Al AlA,s AIA， AlAs AlAs 
AlAs A1A4 M1As MAA A1As 
AIA4At6 本 
AiA4 AiA4 AiA4 AiA4AIN6Ak4 
A4 A1A4 A1A4 A1As A1AsAieAe 
AsAis TY 4Ai6A64 
Aa A As i MA AI6A6 
四 A MAM Ni A 
Aioo 


这 个 例 程 是 所 有 程序 中 最 慢 的 ,部 分 原因 是 未 使 用 替换 选择 ,但 主要 是 因为 它 
的 绪 尾 相当 衬 拙 (一 个 两 路 合并 )。 


估计 运行 时 间 下 面 让 我 们 来 看 看 如 何 算出 使 用 MIXT 磁带 的 排序 方法 的 近似 
执行 时 间 。 如 果 不 进 行 详细 的 模拟 ,我 们 是 否 也 能 预测 图 表 A 中 的 结果 呢 ? 
用 来 比较 不 同 合并 型 式 的 传统 方法 之 一 是 县 印 图 ,如 图 70, 图 74 和 图 78 中 所 
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示 的 那样 。 在 假定 每 个 初始 路 段 的 长 度 大 抵 相 同 的 条 件 下 ,这 些 图 给 出 作为 初始 路 
段 个 数 的 函数 对 数据 的 有 效 扫 摘 次 数 ( 见 图 85)。 但 这 并 不 是 非常 现实 的 比较 , 因 
为 我 们 已 经 看 到 ,不 辐 的 方法 导致 不 同 数目 的 初始 路 段 ; 其 次 ,由 于 块 间隔 的 玻 密 不 
同 ,引起 开销 时 间 也 不 同 ,而 且 重 绕 时 间 也 有 相当 大 的 影响 。 所 有 这 些 同 机 器 有 关 
的 特性 ,使 我 们 不 可 能 编制 出 独立 于 机 费 的 对 诸 方 法 进行 正确 比较 的 图 表 。 男 一 方 
面 ,图 85 说 明了 ,除了 平衡 的 合并 之 外 ,扫描 的 有 效 次 数 可 以 通过 形 如 aln S+8B 的 
光滑 曲线 相当 好 地 有 逼近。 因此 ,在 任何 特定 的 情况 下 ,都 可 以 通过 研究 运行 时 间 的 
近似 公式 ,来 对 各 个 方法 进行 相当 好 的 比较 。 我 们 的 目标 当然 是 要 找 出 简单 而 且 非 
党 实用 的 公式 来 。 


OO 




















合并 时 “扫描 ”的 次 数 
写 ”一 DD ww 上 wn © ~ oo ‘OD 











| 2 5 10 20 50 100 200 500 1000 2000 5000 
初始 路 段 $ 


85 比较 合并 型 式 的 一 种 欠 妥 的 方法 


现在 我 们 借助 于 下 列 参数 ,尝试 建立 这 样 的 一 些 公式 : 

N= 有待 排序 的 记录 数 ; 

C= 每 个 记录 的 字符 数 ; 

M = 在 内 存 中 可 以 利用 的 字符 位 置 数 (假定 为 C 的 倍数 ); 

tr 二 读 或 写 一 个 字符 的 秒 数 ; 

cr 二 重 绕 一 个 字符 的 秒 数 ; 

oz 三 停止 /启动 时 间 延 迟 的 秒 数 ; 

= 每 个 块 间 隔 的 字符 数 ; 

= 操作 员 为 印 掉 和 替换 输入 磁带 所 需 秒 数 ; 

B, = 在 未 排序 的 输入 中 每 个 块 的 字符 数 ; 

Bo= 在 排 好 序 的 输出 中 每 个 块 的 字符 数 。 

对 于 MIXT 我 们 有 rz = 1/60000,o=2/$,c=300,y=480。 上 面 讨论 的 应 用 例子 
有 N=100000,C=100,M=100000,5= 30,B,= B。=5000。 这 些 参 数 通常 都 是 影 
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响 排序 时 间 的 机 器 和 数据 特征 中 最 关键 的 (尽管 重 绕 时 间 通 常 都 是 以 比较 复杂 的 一 
个 表达 式 给 出 的 ,而 不 只 是 一 个 简单 的 比率 op)。 给 定 了 上 述 参 数 和 一 个 合并 型 式 ， 
我 们 将 进一步 计算 诸如 下 面 的 一 些 量 : 

P= 在 此 型 式 中 合并 的 极 大 阶 数 ; 

P= 替代 选择 树 中 的 记录 个 数 ; 

S= 初 始 路 段 个 数 ; 

r=alnSsS+B= 读 和 写 每 个 字符 的 近似 平均 次 数 , 未 计 人 初始 分 布 或 最 后 合并 ; 

x 二 a ln S+B = 在 中 间 合 并 阶段 对 每 个 字符 进行 重 绕 的 近似 平均 次 数 ; 

B= 在 中 间 合 并 阶段 每 个 块 的 字符 数 ，; 

w;;,w,wo 三 “开销 比 ”, 读 或 写 一 个 字符 所 需 有 效 时 间 ( 由 于 间隔 和 停止 /启动 ) 除 
以 硬件 的 时 间 +。 

图 表 A 的 例子 ,已 经 根据 公式 


有 ee oe 0 
选择 了 块 和 缓冲 区 的 大 小 ,使 得 在 同 算法 下 的 缓冲 方案 相 一 致 的 前 提 下 块 尽 可 能 地 
大 (为 了 避免 最 后 扫描 期 间 的 凡 烦 ,P 应 该 足够 小 ,使 得 (1) 能 使 B 之 Bu)。 因 此 ,在 
替代 选择 期 间 , 树 的 大 小 为 


P' =-(M-2B;,-2B)/C (2) 
对 于 随机 的 数据 ,利用 5.4.1 小节 的 结果 ,初始 路 段 的 个 数 S 可 以 估计 为 
ju | 3 


假定 B;< B, 以 及 在 分 布 期 间 输 入 磁带 可 以 以 全 速 进行 ( 见 下 文 ), 则 大 约 花 费 
NCwit 秒 来 分 布 初始 路 段 ,其 中 
WW, 二 (B; + 7)/B; (4) 
在 合并 时 ,缓冲 方案 允许 同时 读 、 写 和 计算 ,但 输入 磁 市 之 间 频 党 的 转换 意味 着 必须 
增加 由 停止 /启动 磁带 来 的 时 间 花 费 ; 因 此 我 们 置 
ww=(B+7Yy+c)/B C3 
而 合并 时 间 近 似 于 
(x + or ) NCwr (6) 
这 个 公式 稍微 地 惩 缠 了 重 绕 时 间 , 因 为 w 包括 了 停止 /启动 时 间 , 但 其 它 的 考 
虑 ,诸如 重 绕 的 互 锁 及 从 装 磁带 点 起 读 造 成 的 额外 花费 ,通常 都 能 对 此 做 出 补偿 。 
假定 Bu 委 中 , 则 最 后 的 合并 扫描 是 通过 开销 比 
wo 二 (Bo YB'o (7) 
来 加 以 限制 的 。 
我 们 可 以 估计 最 后 的 合并 和 重 绕 的 运行 时 间 为 
nC(1lt+ 0) woTt 
在 实践 中 ,由 于 存在 不 相等 的 块 长 度 , 它 可 能 要 花 稍微 长 些 的 时 间 ( 输 入 和 输出 不 像 
i 
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在 算法 下 中 那样 同步 ) ,但 运行 时 间 对 于 所 有 的 合并 型 式 都 将 大 致 相同 。 

在 讨论 对 于 个 别 型 式 的 更 特定 的 公式 之 前 ,让 我 们 先 来 试 着 论证 上 述 所 做 的 两 
个 假定 。 

a) 替 代 选 择 能 够 中 上 输入 磁带 吗 ? 在 图 表 A 的 示例 中 , 它 基 本 能 够 ,因为 它 大 
约 花费 算法 5.4.1R 的 内 循环 的 10 次 迭代 来 选择 下 一 个 记录 ,而且 我 们 有 Ce;r > 
1667us 来 做 这 件 事 。 只 要 在 编写 蔡 代 选择 循环 的 程序 时 多 加 贡 酌 ,在 许多 机 顺 上 
(即使 在 20 世纪 70 年 代 ) 都 是 做 得 到 的 。 注 意 ,这 一 情况 在 合并 时 不 是 太 关 键 , 因 
为 每 个 记录 的 计算 时 间 , 几乎 总 是 小 于 在 一 个 P 路 合并 期 间 每 个 记录 的 磁带 运行 
时 间 ,因为 已 不 太 大 。 

b) 如 (1) 中 那样 ,我 们 果真 应 选择 B 为 缓冲 区 的 最 大 容量 吗 ? 一 个 很 大 的 缓冲 
区 会 降低 (5) 中 的 开销 比 w ,但 它 也 会 增加 内 部 路 段 S 的 个 数 , 因 为 已 减 小 了 。 哪 
一 个 因素 更 重要 ,并 不 是 一 眼 就 能 看 出 来 的 。 把 合并 时 间 看 成 x = CP 的 销 数 ,我 们 


可 以 把 它 近 似 表 示 成 
O03— x 
(on +) (3 9 

其 中 9, ,0, ,0;,04 是 某 些 适当 的 常数 , 且 6; > 04。 关于 xz 求 微 商 , 即 可 看 出 存在 某 
个 No, 使 得 对 于 所 有 N 宇 No ,牺牲 缓冲 区 的 大 小 来 增加 x 并 不 值得 。 例 如 ,在 图 表 
A 的 排序 应 用 中 ,No 大 约 等 于 10 000; 当 对 多 于 10 000 个 记录 排序 时 ,大 的 缓冲 区 
是 有 利 的 。 

然而 要 注意 , 当 S 超过 P 的 一 个 乘 方 时 ,平衡 合并 的 扫描 次 数 急 剧 贱 升 。 如 果 
预先 知道 N 的 一 个 近似 , 则 缓冲 区 大 小 应 该 被 选择 成 使 得 S 尽 可 能 地 稍 小 于 己 的 
一 个 乘 方 。 例 如 ,图表 A 第 一 行 的 缓冲 区 大 小 为 12 500; 由 于 S=78, 这 是 非常 令 人 
满意 的 ,但 如 果 S 是 82, 则 减少 一 点 缓冲 区 大 小 将 要 好 得 多 。 


10 个 示例 的 公式 ” 回 到 图 表 A, 让 我 们 试 着 给 出 一 些 公 式 , 这 些 公 式 近 似 为 10 
个 方法 中 每 个 的 运行 时 间 。 在 大 多 数 情 况 下 ,只 要 我 们 确定 了 中 间 合 并 扫描 的 次 数 
x = alnS +B 和 中 间 重 绕 扫 描 的 次 数 x =a lnS+8B', 则 基本 的 公式 
NCw;r + (x + or ) NCowr + (1 + p)NCwor (9) 
将 是 对 整个 排序 时 间 的 充分 好 的 近似 。 对 (9) 有 时 有 必要 附加 进一步 的 校正 。 每 一 
个 方法 的 细节 可 以 叙述 如 下 : 


例 1 向 前 读 平衡 合并 对 于 在 2P 条 磁带 上 的 P 路 合并 ,可 以 使 用 公式 
T=|ln S/n Pl-1,x =|[in S/ln Pl|/P, 


例 2 向 前 读 多 阶段 合并 我 们 可 以 取 x 兰 r, 因 为 每 个 阶段 的 后 面 通 向 都 跟 
有 大 约 和 以 前 的 合并 长 度 相 同 的 重 绕 。 由 表 5.4.2-1 我 们 得 到 ,在 6 条 磁带 的 情况 
下 值 cs0.795,8<0.864-2( 减 2 是 由 于 表 中 的 项 除了 中 则 的 扫描 外 ,还 包括 初始 
和 最 后 的 扫描 )。 在 初始 分 布 之 后 重 绕 输入 磁带 的 时 间 , 即 pNCwir + 9, 应 该 加 到 
(9) 上 。 
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例 3 向 前 读 级 联合 并 表 5.4.3-1 给 出 了 值 a 守 0.773,B8 守 0.808 一 2。 售 计 
重 绕 时 间 比 较 困难 ;或 许 置 x x 束 足 够 精确 了 。 如 同 例 2 一 样 ,我 们 需 加 初始 重 
绕 时 间 到 (9) 上 。 


例 4 分 磁带 多 阶段 合并 表 5.4.2-6 给 出 a 守 0.752,B 守 1.024 一 2。 除 开 初 
始 化 (pNCw,rt + 6) 和 接近 末尾 的 两 个 阶段 (2pNCor 乘 36% ) 外 重 绕 时 间 几 乎 重合。 
我 们 也 可 以 从 8 减 去 0.18, 因 为 前 半 个 阶段 为 初始 重 绕 所 重 辣 。 


例 S 具 重 绕 重 又 的 级 联合 并 在 这 种 情况 下 对 于 全 = 5 我 们 使 用 表 5.4.3-1， 
得 到 a 守 0.897,B 守 0.800 -2。 几 乎 所 有 的 非 重 秋 的 重 绕 都 恰 出 现在 初始 分 布 之 后 
和 每 两 路 合并 之 后 。 在 一 个 完全 的 初始 分 布 之 后 ,最 长 的 磁带 包含 数据 的 大 约 1/g， 
其 中 g 是 “增长 率 ”。 在 每 个 两 路 合并 之 后 ,在 6 条 磁带 的 情况 下 重 绕 的 数量 为 
did, (参见 习题 S.4.3-$) ,因此 可 以 证 明 , 在 工 条 磁带 的 情况 下 ,在 两 路 合并 之 后 
的 重 绕 量 近似 于 该 文件 的 
(2/(2T — 1))(1 — cos(4x/(2T — 1))) 


在 我 们 的 情况 下 ,人 = 5 ,这 是 该 文件 的 条 (1 一 cos80° )0.184, 而且 它 出 现 的 次 数 是 
0.946lnS +0.796 2。 


例 6 向 后 读 平 衡 合 并 除 大 多 数 的 重 绕 已 被 消去 外 , 它 和 例 1 类似。 从 问 前 
变 成 为 回 后 这 一 方 同 变化 ,引起 某 些 延 迟 , 但 是 这 些 延 迟 并 不 重要 。 在 最 后 扫描 之 
前 ,将 有 50-50 机 会 需要 重 绕 ,所 以 我 们 可 以 取 r = 1/(2P)。 


例 7 向 后 读 多 阶段 合并 由 于 此 情况 下 的 替代 选择 产生 大 约 每 已 次 改变 一 
次 方向 的 路 段 ,我 们 必须 以 S 的 男 一 个 公式 来 蔡 换 (3)。 由 习题 5.4.1-24 所 提示 
的 一 个 相当 好 的 近似 是 S=| N(3+1/P)/(6P')1+1。 消 去 了 所 有 的 重 绕 时 间 , 因 
而 表 5.4.2-1 给 出 a 寺 0.863, 8 之 0.921 一 2。 


例 8 向 后 读 级 联合 并 由 表 5.4.3-1 我 们 有 a 守 0.897,B8 守 0.800 一 2。 重 统 
时 间 可 以 估计 为 在 该 表 中 的 “有 拷贝 的 扫描 " 减 去 “无 拷贝 的 扫描 "后 所 得 差额 的 两 
倍 ,假如 在 最 后 的 合并 之 前 必须 重 绕 , 以 得 到 递增 的 次 序 , 则 加 上 1/(2P)。 


例 9 向 后 读 振荡 排序 在 这 种 情况 下 , 蔡 代 选择 要 被 局 动 和 停止 许多 次 ;每 
次 分 布 -1 到 2P 一 1 个 路 段 ,长 度 平均 为 P; 因 此 ,路 段 的 平均 长 度 近 似 于 P (2P 
-4/3)/P ,故我 们 可 以 估计 S=|NA2-4/(3P))P )1+1。 用 一 点 时 间 来 做 从 合 
并 变 为 分 布 和 从 分 布 变 为 合并 的 转换 ;这 近似 于 从 和 输入 磁带 谈 人 Pi 个 记录 的 时 间 ， 
即 PCoir, 且 它 大 约 出 现 S/P 次 。 重 绕 时 间 和 合并 时 间 可 以 像 例 6 中 那样 估计 。 


例 10 向 前 读 振荡 排序 ”此 方法 不 易于 分 析 , 因 为 在 输入 已 穷尽 后 最 后 执行 

的 “清除 ”阶段 不 像 先 前 的 一 些 阶段 那样 有 效 。 知 忽略 这 个 麻烦 的 方面 ,只 简单 地 要 

求 做 额外 一 次 扫描 ,我 们 就 可 以 通过 置 a=1/In P,8=0, 及 x = x/P 来 估计 合并 时 

间 。 在 这 种 情况 下 路 段 的 分 布 有 些 不 同 ,因为 未 用 蔡 代 选择 ;我 们 置 P = MI/C 及 5 
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=| NA/P- 1。 注意 ,通过 在 开销 中 增加 大 约 为 (M+2B)AM 的 一 个 额外 因子 ,有 可 能 
在 分 布 期 间 使 计算 和 读 写 重 琶 起 来 。 在 此 情况 下 并 不 需要 例 9 中 提 到 的 “方式 转 
换 " 时 则 ,因为 它 已 为 重 绕 所 重 状 。 所 以 在 此 情况 下 估计 的 排序 时 间 为 (9) 加 上 
2BNCw.rt/M 。 


表 1 排序 的 时 间 估 计 一 览 
估计 数 实际 数 


(9) 加 到 (9) 中 交 和 总 和 


12500 650 79 
8300 734 70 
8300 734 70 
10000 700 73 
10000 700 73 
12500 650 79 
10000 700 79 
10000 700 73 
10000 700 87 P’‘SCwrt/P 
10000 - 100 2BNCuir/M 


表 1 表明 ,在 这 些 示 例 中 这 些 估计 并 不 太 坏 ,尽管 在 一 些 情况 下 ,有 50s 左右 的 
差异 。 例 2 和 例 3 中 的 公式 指出 6 条 磁带 时 级 联合 并 比 多 阶段 还 要 好 些 ,然而 实际 
上 却 是 多 阶段 更 好 。 原 因 是 像 图 85( 它 示 出 5 条 磁带 的 情况 ) 这 样 的 图 对 于 多 阶段 
算法 来 说 更 接近 于 直线 ;如 果 有 14 志 S15 和 43 二 S 志 55, 即 近乎 “完全 ”的 级 联 数 
15 和 55, 则 在 6 条 磁带 上 级 联 比 多 阶段 更 好 ,但 算法 5.4.2D 的 多 阶段 分 布 ,对 于 所 
有 其 它 的 S 委 100 同样 好 或 更 好 。 当 S 一 co 时 级 联 将 优 于 多 阶段 ,但 S 并 不 真正 地 
趋 于 ce。 例 9 中 的 估计 不 足 也 是 由 于 类 似 的 情况 所 致 ;多 阶段 优 于 振荡 ,尽管 渐 近 
理论 告诉 我 们 ,对 于 很 大 的 S ,振荡 将 是 更 好 的 。 


杂记 ”现在 宜 于 对 磁带 的 合并 来 做 一 些 随机 的 观察 : 

“上 式 公 式 表 明 ,磁带 排序 的 费用 实际 上 是 N 乘 C 的 函数 ,而 不 是 独立 的 N 和 
C 的 函数 。 除 了 一 些 较 小 的 考虑 (例如 把 B 取 作 C 的 一 个 倍数 ) 外 ,我 们 的 公式 指 
出 ,对 每 个 含 10 个 字符 的 100 万 个 记录 排序 ,和 对 每 个 含 100 个 字符 的 10 万 个 记 
录 排 序 ,所 花 时 间 大 体 相 同 。 虽 然 在 公式 中 未 予 说 明 ,但 实际 上 却 可 能 有 差别 ,这 差 
别 是 由 于 在 替代 选择 期 间 为 链接 诸 字 段 所 用 的 空间 造成 的 。 无 论 如 何 , 键 码 的 大 小 
很 难 造成 任何 差别 ,除非 键 码 是 那么 长 和 复杂 ,以 致 内 部 计算 已 不 能 跟 上 磁带 了 。 

对 于 长 的 记录 和 短 的 键 码 ,我 们 经 常会 想 要 先 “ 分 离 出 ”这 些 键 码 ,并 对 它们 排 
序 ,而 后 再 设法 重新 整理 这 些 记录 。 但 这 个 思想 实际 上 并 不 行 之 有 效 , 它 仅仅 是 延 
述 了 你 的 烦恼 而 已 ,因为 最 后 的 重 整 理 过 程 大 约 要 花费 和 通常 的 合并 排序 相同 的 时 
间 。 

:在 编写 一 个 有 待 重复 使 用 的 排序 例 程 时 ,非常 间 慎 地 来 估计 它 的 运行 时 间 ,并 
且 把 理论 同 实际 观察 到 的 性 能 进行 比较 ,是 明智 的 。 由 于 排序 理论 已 经 相当 成 熟 ， 

.31 ， 
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因此 也 就 知道 这 个 过 程 会 显露 出 现存 系统 上 输入 /输出 硬件 或 软件 的 缺陷 ;但 服务 
工作 慢 于 它 应 该 有 的 速度 ,而 且 直 到 排序 例 程 运行 得 实在 太 慢 时 ,方才 引起 人 的 注 
意 ! 
我 们 对 蔡 代 选择 的 分 析 是 对 “随机 ”文件 进行 的 ,但 在 实践 中 真正 出 现 的 文件 
经 常 已 有 一 定 的 次 序 (事实 上 ,有 时 人 们 确实 在 对 已 经 排 好 序 的 文件 排序 ,而 这 仅仅 
是 为 了 确认 )。 因 此 经 验证 明 ,替代 选择 比 其 它 类 型 的 内 部 排序 更 可 取 , 这 比 我 们 公 
式 中 所 指出 的 还 要 突出 。 在 向 后 读 多 阶段 排序 的 情况 下 ,这 个 优点 不 太 明 显 ,因为 
必须 产生 一 些 递减 的 路 段 ; 确 实 ,R.L. Gilstad( 他 首先 发 表 了 多 阶段 合并 ) 原 来 即 由 
于 这 个 原因 而 否定 了 向 后 读 的 技术 。 但 他 后 来 注意 到 ,交替 的 方向 仍 将 挑 出 长 的 递 
增 路 段 。 而 且 向 后 读 多 阶段 是 仅 有 的 网 适用 于 递减 输入 文件 ,也 适用 于 递增 输入 文 
件 的 标准 技术 。 
替代 选择 的 另 一 个 优点 是 它 允 许 同 时 进行 读 、 写 和 计算 。 如 果 我 们 仅仅 以 一 
种 显然 的 方式 进行 内 部 排序 一 一 填 满 内 存 , 对 它 进 行 排 序 ,然后 当 开 始 装 人 下 一 个 
负载 时 写 出 它 一 一 则 分 布 扫描 将 大 约 花 费 两 倍 之 长 的 时 间 ! 
我 们 已 经 讨论 过 的 ,唯一 适合 于 同时 读 、 写 和 计算 的 其 它 内 部 排序 ,就 是 堆 排 
序 。 为 了 方便 起 见 ,假设 内 部 的 内 存 能 存 1000 个 记录 ,磁带 上 每 个 块 能 存 100 个 记 
录 。 图 表 A 的 例 10 就 是 以 下 列 策略 编制 的 , 令 Bl1B;…Bio 表 示 分 成 10 个 块 ,每 个 
块 各 100 个 记录 的 内 存 的 内 容 : 
步骤 0 填 满 内 存 , 并 使 B,… B10 的 元 素 满 足 堆 ( 在 根 处 具有 最 小 元 素 ) 的 诸 不 
等 式 。 
步骤 1 使 B1…Bio 成 为 一 个 堆 , 然 后 选择 出 最 小 的 100 个 记录 ,并 且 把 它们 移 
到 Bio。 
步骤 2 写 出 B10, 同 时 选择 B1…B。 的 最 小 的 100 个 记录 ,并 把 它们 移 到 B。。 
步骤 3 读 和 人 Blo, 并 写 出 Bg, 同 时 选择 Bl… Bs 的 最 小 的 100 个 记录 ,并 把 它 
们 移 到 Bs。 
步骤 9 读 入 B,, 并 写 出 Bs, 同 时 选择 B1B, 的 最 小 的 100 个 记录 ,并 把 它们 移 
到 B, ,同时 使 堆 的 诸 不 等 式 在 Bs… Bjio 中 成 立 。 
步骤 10 读 入 B;, 并 写 出 B,, 同 时 对 Bi 排序 并 使 堆 的 诸 不 等 式 在 B4… Bio 中 
成 立 。 
步骤 11 读 入 B,, 并 写 出 B1, 同 时 使 堆 的 诸 不 等 式 在 B3… Bio 中 成 立 。 
步骤 12 读 入 Bi, 同时 使 堆 的 诸 不 等 式 在 B;…Bio 中 成 立 ,返回 步骤 1。 | 


' 我 们 已 经 假定 要 排序 的 记录 个 数 N 事先 是 未 知 的 。 实 际 上 在 大 多 数 计算 机 

的 应 用 中 ,对 全 部 文件 中 的 记录 个 数 保持 跟踪 是 可 能 的 ,并 且 可 以 假定 计算 机 系统 

有 能 力 告诉 我 们 N 的 值 。 这 将 有 多 大 的 帮助 呢 ?” 可 异 , 不 很 大 ! 我 们 已 经 看 到 , 埠 

代 选 择 是 非常 有 利 的 ,但 是 它 导 致 了 一 个 不 可 预测 的 初始 路 段 个 数 。 在 一 个 平衡 合 
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并 中 ,我 们 可 以 使 用 关于 N 的 信息 ,以 这 样 的 方式 来 设置 缓冲 区 的 大 小 B ,即使 得 
S 大 概 将 恰恰 小 于 P 的 一 个 乘 方 ;而 在 具有 最 优 的 虚拟 路 段 设置 的 多 阶段 分 布 中 ， 
我 们 可 以 使 用 关于 N 的 信息 ,来 判断 使 用 什么 级 别 最 好 (参考 表 5.4.2-2)。 

.磁带 驱动 器 倾向 于 被 看 作 是 计算 机 最 不 可 靠 的 部 分 ,因此 在 确保 整个 排序 已 
经 令 人 满意 地 完成 之 前 , 决 不 要 损坏 原来 的 输入 磁带 。 在 图 表 A 的 一 些 示 例 中 , 虽 
然 “ 操 作 员 的 印 磁带 时 间 ” 是 令 人 厌烦 的 ,但 是 ,鉴于 在 一 个 长 排序 期 间 经 常 可 能 出 
错 , 所 以 重 写 输入 还 是 太 冒 险 了 。 

` 当 从 向 前 写 变 成 向 后 读 时 ,只 要 不 把 最 后 的 缓冲 负载 写 到 磁带 上 ,我 们 可 以 市 
省 一 些 时 间 ; 因 为 它 总 是 要 读 进来 的 ! 图 表 A 表明 ,这 个 技巧 实际 上 节省 的 时 间 比 
较 少 ,除非 是 振荡 排序 , 它 经 常 要 变换 方 问 。 

:尽管 一 个 大 型 的 计算 机 系统 可 能 有 大 量 的 磁带 机 ,但 是 我 们 不 把 它们 全 用 交 
可 能 更 好 些 。 当 P 很 大 时 ,logpS 和 logp+1S 之 间 的 百分比 差 不 是 非常 大 的 ,而 且 
更 高 阶 的 合并 通常 意味 着 更 小 的 块 (另外 还 要 考虑 安装 所 有 这 些 空白 磁带 的 可 怜 的 
计算 机 操作 员 )。 另 一 方面 ,习题 12 描述 了 利用 附加 磁带 机 的 一 种 有 趣 方式 , 即 把 
它们 组 合 在 一 起 以 便 重合 输入 /输出 时 间 ,而 不 必 增 加 合并 的 阶 。 

. 像 MIX 这 样 的 机 器 上 ,都 有 固定 的 很 小 的 块 大 小 ,在 合并 时 几乎 不 需要 使 用 
任何 内 存 。 这 样 振 落 排序 变 得 更 有 了 吸引 力 ,因为 在 合并 时 维持 蔡 代 选择 树 于 内 存 中 
成 为 可 能 。 事 实 上 ,在 这 种 情况 下 ,我 们 可 以 (如 Colin J. Bell 在 1962 年 提议 的 ) 改 
进 振荡 排序 ,每 次 从 工作 磁带 合并 时 ,同时 合并 一 个 新 的 初始 路 段 到 输出 中 。 

我们 已 经 观察 到 ,对 多 卷 文件 ,每 次 只 应 该 排序 一 卷 ,以 避免 过 多 的 磁带 处 理 。 
这 有 时 称 为 “ 卷 时 间 ” 应 用 程序 。 实 际 上 ,如果 比 较 细 心地 编写 程序 , 则 在 6 条 磁 融 
上 的 一 个 平衡 排序 ,能 够 同时 对 3 个 满 卷 排序 ,直到 最 后 的 合并 时 间 为 止 。 

为 了 对 大 量 的 已 经 各 自 排 好 序 的 磁带 卷 进 行 排序 , 极 小 路 径 长 度 的 合并 树 将 是 
最 快 的 (参见 5.4.4 小 节 )。 这 个 构造 首先 是 由 E. H. Friend 做 出 的 LJACM 3 
(19$6) ,166 一 167]。 而 后 W.H. BurgelInformation and Control 1(1958),181~197] 
指出 ,如 果 我 们 忽略 磁带 的 处 理 时 间 , 则 合并 给 定 ( 可 能 不 等 ) 长 度 路 段 的 一 种 最 优 
方式 ,可 通过 构造 用 路 段 长 度 做 为 权 , 具 有 极 小 加 权 路 径 长 度 的 一 株 树 来 得 到 (参见 
2.3.4.5 小 节 和 5.4.9 小 节 )。 

.我 们 的 讨论 已 经 冒失 地 假定 我 们 有 对 磁带 机 输入 /输出 指令 的 直接 控制 ,而 且 
没有 复杂 的 系统 接口 来 阻止 我 们 像 磁 带 的 设计 者 所 希望 的 那样 有 效 地 使 用 磁带 。 
这 些 理想 的 假定 ,使 我 们 洞察 了 磁带 合并 的 问题 ,而 且 还 可 以 使 我 们 对 于 操作 系统 
界面 的 正确 设计 有 所 了 解 , 但 应 认识 到 ,多 程序 设计 和 多 进程 可 使 情况 更 为 复杂 。 

:这 一 节 所 研究 的 内 容 , 是 由 E. H. Friend [JACM 3(1956) ,134 一 168 | ，W . 
Zoberbier[ Elektronische Datenverarbeitung $(1960) ,28 一 44] 以 及 M.A.GoetzLDigital 
Computer User’s Handbook (New York:McGraw-Hill,1967) ,1.292 一 | .320] 首 先 在 
出 版 的 著作 中 讨论 的 。 


小 结 我们 可 以 以 如 下 方式 ,总 结 在 磁带 排序 的 各 个 不 同方 法 的 相对 效率 中 所 
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学 到 的 东西 。 
定理 A 汰 断 一 个 纷 定 入 闷 下 万 个 合并 型 式 最 好 是 困难 的 。 


图 表 A 中 的 示例 说 明 ,100 000 个 随机 排序 的 100 个 字符 的 记录 (或 1 百 万 个 
10 个 字符 的 记录 ), 在 现实 的 假定 之 下 ,可 以 如 何 利 用 6 条 磁带 来 进行 排序 。 这 么 
多 数据 填 满 大 约 一 半 的 位 带 , 而 且 它 们 能 在 大 约 13min 一 19min 内 在 MIXT 和 磁 带 上 被 
排序 ;然而 可 利用 的 磁带 机 有 相当 大 的 差异 ,而 且 这 样 一 个 作业 的 运行 时 间 ,在 不 同 
的 机 名 上 ,可 以 小 到 4min ,大 到 2h。 在 我 们 的 例子 中 ,路段 的 初始 分 布 和 内 部 排序 


使 用 了 大 约 3min 时 间 ; 最 后 的 合并 和 重 绕 输 出 磁带 使 用 大 约 4 min; 而 合并 的 中 
间 阶 段 花费 的 大 约 7 方 min 一 11 广 min。 

给 定 不 能 向 后 读 的 6 条 磁带 ,在 我 们 的 假定 之 下 ,最 好 的 排序 方法 是 “分 磁带 的 
多 级 合并 ”( 例 4) ;而 对 于 允许 向 后 读 的 磁带 ,最 好 的 方法 为 具有 一 个 复杂 的 虚拟 路 
段 设置 的 向 后 读 多 阶段 法 ( 例 7)。 振 荡 排 序 ( 例 9) 仅 次 于 它 。 在 这 两 种 情况 下 级 联 
合并 提供 了 一 个 更 简单 的 方案 , 它 仅仅 稍微 慢 些 ( 例 5 和 例 8)。 在 向 前 读 的 情况 下 ， 
一 个 直截了当 的 平衡 合并 ( 例 1) 惊 人 地 有 效 ,其 部 分 是 因为 这 个 特定 例子 恰好 适合 
于 它 , 部 分 是 因为 它 花费 较 小 的 重 绕 时 间 。 

如 果 我 们 有 不 同 数目 的 磁带 可 供 利用 , 则 情况 将 稍 有 不 同 。 


排序 生成 器 由 于 数据 以 及 设备 的 特性 是 千变万化 的 ,所 以 几乎 不 可 能 写 一 个 
单一 的 外 部 排序 程序 ,使 它 在 非常 多 的 应 用 中 都 令 人 满意 。 而 且 也 颇 难 编写 能 真正 
有 效 处 理 磁带 的 一 个 程序 。 因 此 排序 软件 的 编制 是 一 项 特别 有 挑战 性 的 工作 。 一 
个 排序 生成 器 是 这 样 一 个 程序 , 它 根据 描述 数据 格式 和 硬件 配置 的 参数 ,产生 出 适 
合 于 某 类 特定 的 排序 应 用 的 机 器 代码 。 这 样 一 个 程序 通常 都 依赖 于 诸如 COBOL 
或 PL/I 这 样 的 高 级 语言 。 

一 个 排序 生成 器 通常 提供 的 特性 之 一 ,是 插入 用 户 “ 自 己 的 代码 ”的 能 力 , 这 是 
有 得 加 入 到 排序 例 程 的 第 一 遍 和 最 后 一 遍 扫 描 的 特殊 指令 序列 。 第 一 遍 扫 描 的 自 
己 的 代码 常常 用 来 编辑 输入 记录 ,通常 把 它们 缩小 或 扩展 成 为 易于 排序 的 形式 。 例 
如 ,假设 输入 记录 按 一 个 9 字符 的 键 码 来 进行 排序 ,该 键 码 以 月 -日 -年 的 格式 表示 日 
期 : 

JUL041776 OCT311517 NOV051605 JUL141789 NOV071917 
在 第 一 次 扫描 时 ,3 个 字母 的 月 代码 可 在 一 份 表 中 查 出 ,而 且 月 代码 可 以 用 最 高 有 
效 字 段 在 左边 的 数 来 代替 
17760704 15171031 16051105 17890714 19171107 
这 就 减 小 了 记录 的 长 度 并 且 使 随后 的 比较 简单 得 多 (其 至 还 可 以 换 成 一 个 更 紧凑 的 
代码 )。 最 后 扫描 的 自己 的 代码 , 则 可 用 来 恢复 原来 的 格式 ,和 /或 对 文件 进行 其 它 
想 要 的 变动 ,和 /或 计算 输出 记录 的 某 个 函数 。 我 们 已 经 研究 过 的 合并 算法 ,是 以 这 
种 方式 组 织 的 , 即 易于 把 最 后 的 扫描 同 其 它 合并 阶段 区 别 开 来 。 注 意 , 当 出 现 自己 
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的 代码 时 ,必须 至 少 对 文件 进行 两 次 扫描 ,即便 它 开 始 时 已 经 是 有 序 的 亦 然 。 改 变 
记录 大 小 的 自己 的 代码 ,可 使 振荡 排序 难以 来 重合 它 的 茶 些 输入 /输出 操作 。 

排序 生成 器 也 照顾 到 诸如 磁带 标识 的 约定 等 系统 细节 ,而且 它们 通常 提供 散 
列 总 和 "或 其 它 校 验 以 确保 不 丢失 或 改变 数据 。 有 时 还 有 在 适当 的 位 置 停 止 排序 及 
过 后 恢复 执行 的 规定 。 最 优秀 的 生成 右 人 允许 记录 有 动态 变化 的 长 度 [ 参 见 D.J. 
Waks,CACM 6(1963) ,267 一 272 ] 。 


“使 用 较 少 缓冲 区 的 合并 ”我们 已 经 看 到 ,在 P 路 合并 期 间 ,为 跟 上 磁带 的 急 
速 移动 ,2P +2 个 缓冲 区 已 足够 了 。 现 在 在 结束 本 节 之 前 ,让 我 们 从 数学 上 分 析 一 
下 , 少 于 2P+2 个 缓冲 区 时 的 合并 时 间 。 

两 个 输出 缓冲 区 显然 是 可 取 的 ,因为 我 们 可 以 在 从 一 个 中 写 出 的 同时 ,在 男 一 
个 中 形成 下 一 个 输出 块 。 因 此 我 们 完全 可 以 忽略 输出 的 问题 ,而 仅仅 专注 于 输入 。 

假设 有 P+ QQ 个 输入 缓冲 区 ,其 中 1 二 QP。 如 同 L.J.Woodrum 所 提议 的 ， 
我 们 将 使 用 这 种 状态 的 下 列 近 似 模型 [IBM Systems J. 9(1970) ,118 一 144] ;每 读 磁 
带 上 一 个 块 需 用 一 个 时 间 单 位 。 在 这 段 时 间 里 ,没有 输入 缓冲 区 变 成 空 的 概率 为 
po,， 有 一 个 变 成 空 的 概率 为 pj ,有 两 个 或 更 多 变 成 空 的 概率 为 p>, ,等 等 , 当 完 成 一 
条 磁带 的 读 入 时 ,我们 处 于 Q+1 个 状态 之 一 : 

状态 0 ”Q 个 缓冲 区 为 空 ; 我 们 使 用 在 此 小 节 中 早 些 时 候 说 明 的 预报 技术 , 开 
始 从 适当 的 文件 读 一 个 块 进 入 Q 个 缓冲 区 之 一 。 在 一 个 时 间 单 位 之 后 ,我 们 以 概 
率 加 转 到 状态 1 ,否则 我 们 留 在 状态 0。 

状态 1 Q-=-1 个 缓冲 区 为 空 ;预报 适当 的 文件 ,我 们 开始 谈 人 Q -1 个 缓冲 区 
之 一 。 在 一 个 时 间 单 位 之 后 ,我 们 以 概率 po 转 到 状态 2, 以 概率 p, 转 人 状态 1 ,以 
概率 p-,, 转 入 状态 0。 


状态 CQ -1 一 个 缓冲 区 为 空 ;预报 适当 的 文件 ,我 们 开始 读 入 此 缓冲 区 。 在 一 
个 时 间 单 位 之 后 ,我 们 以 概率 p。 转 到 状态 Q ,以 概率 p, 转 到 状态 Q 一 1, 以 概率 
po-1 转 到 状态 1 和 以 概率 po。 转 到 状态 0。 

状态 0 ”所 有 缓冲 区 都 被 填 满 。 读 磁带 停止 平均 个 时 间 单 位 ,而 后 转 到 状态 
Q-1。 

我 们 以 状态 0 开始 。 这 个 状态 的 模型 对 应 于 一 个 马尔 可 夫 过 程 (参见 习题 
2.3.4.2-26), 它 可 以 以 下 列 有 趣 的 方式 通过 生成 函数 来 进行 分 析 : 设 z 是 一 个 任意 
参数 ,而 且 假 定 , 每 当 我 们 有 读 磁带 机 会 时 ,决定 读 磁带 的 概率 为 z, 而 决定 结束 算 
法 的 概率 为 1 - z。 现 在 令 go(z)= 了 ,>oa'9 zx"(1 一 z) 是 在 这 样 一 个 过 程 中 出 现状 
态 Q 的 平均 次 数 ;由 此 得 出 a48) 是 当 恰好 读 了 ”个 块 时 状态 Q 出 现 的 平均 次 数 。 
于 是 n +a‘ 是 输入 加 上 计算 的 平均 总 时 间 。 如 果 如 同 在 (2P +2) 个 缓冲 区 的 算 
法 中 那样 ,我 们 有 完全 的 重 夏 , 则 总 共 的 时 间 将 仅仅 是 ”个 单位 ,所 以 a‘% 表示 
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“ 读 挂 起 ”的 时 间 。 
对 于 0 二 i,j 夺 QQ+1, 其 中 Q+1 是 一 个 新 的 “被 停止 "状态 。 令 A; 是 在 此 过 程 
中 我 们 从 状态 i 转 到 状态 7 的 概率 。 例 如 ,对 于 小 的 Q@ ,A 矩阵 取 如 下 的 形式 : 


P>1> Po 工 一 z 
Q=1: 1 0 0 
0 0 0 
P>1X Po 0 1 —z 
Q=2 P22 Piz po 1l—z 
0 l 0 0 
0 0 0 0 


ps1* poz 0 0 1—z 
Ps2z Diz Doz 0 于 一 之 
Q = 3: ps3z pz Pix poz 1l1-x 
0 0 | 0 0 
0 0 0 0 0 
习题 2.3.4.2-26(b) 告 诉 我 们 , go(z)= 余 因 式 oo(T 一 A)/det(I 一 A)。 于 是 ,例如 
当 Q=1 时 ,我 们 有 
1 0 0 EE 
0 0 1 


poz Po _ > jnpoz” (1 z) 


1—- piz—- poz 1-> “0 
所 以 ec 避 = npo, 这 当然 是 预先 就 显然 的 ,因为 当 Q=1 时 问题 是 很 简单 的 。 当 Q = 
2 时 (见习 题 14) 类 似 的 计算 给 出 不 大 显然 的 公式 
2) 四 pon pall 一 p1) 
” ] 一 pl (1 一 力 ]) 
一 般 地 说 ,我们 可 以 证 明 , 当 nz->co 时 a‘8) 的 形式 为 a'% n+ O(1) ,其 中 常数 ct9， 
不 是 太 难 计算 的 (见习 题 15)。 结 果 为 43) = p3/((1 一 p1)?- pop)。 
鉴于 合并 的 本 性 ,我 们 有 相当 的 理由 来 确定 y=1/P 以 及 一 个 二 项 式 分 布 
-人 (人 
Pi = k P P 
例如 , 当 P=5 时 ,我 们 有 p。=.32768, pi = .4096,p,=.2048, p= .0512, p= 
.0064, 以 及 ps= .00032 ,因此 cs-0.328,a 0.182, 以 及 a‘)0.125。 换 句 话 
说 ,如 果 我 们 使 用 5+ 3 个 输入 缓冲 区 代替 5+5 个 输入 缓冲 区 , 则 可 以 预期 一 个 额 
外 的 大 约 0.125/5 守 2.5% 的 “ 读 挂 起 ”时 间 。 
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当然 ,这 个 模型 仅仅 是 一 个 非常 粗略 的 近似 ,我 们 知道 , 当 Q = P 时 ,全 然 没 有 
挂 起 时 间 ,但 这 个 模型 说 有 。 对 于 较 小 的 Q ,额外 的 读 挂 起 时 间 大 约 恰恰 抵消 通过 
较 大 的 块 所 节省 的 开销 ,所 以 简单 的 Q = 忆 的 方案 似乎 是 合理 的 。 


习 是 


1.[13] 假设 在 没有 块 间 的 间隔 时 ,每 条 磁带 正好 包含 23 000 000 个 字符 。 求 当 磁 带 上 的 每 
个 块 包含 ”个 字符 时 ,每 条 磁带 的 准确 字符 数 的 一 个 公式 。 
2.[15] 说 明 为 什么 图 84 的 第 6 行 中 文件 2 的 第 一 个 缓冲 区 完全 是 空 的 ? 
3.[20] 如 果 仅 有 2P -1 个 输入 缓冲 区 而 不 是 2P 个 , 则 算法 下 能 正确 工作 吗 ? 硅 能 , 则 证 明 
之 ; 若 不 能 , 则 给 出 一 个 使 它 不 对 的 例子 。 
4. [20] 如 何 改 变 算法 下, 使 得 当 P=1 时 它 也 能 够 工作 ? 
p> 5.[21] 当 相 等 键 码 出 现在 不 同 的 文件 中 时 ,在 预报 过 程 中 就 必须 非常 小 心 。 说 明 为 什么 ,并 
通过 更 精确 地 定义 算法 下 的 合并 和 预报 操作 来 说 明 怎样 避免 这 个 问题 ? 
6.[22] 为 了 把 算法 5.4.3C 转换 成 对 于 T+1 条 磁带 的 具有 重 绕 重要 的 级 联合 并 的 一 个 算 
法 ,对 算法 5.4.3C 应 该 做 些 什么 改动 ? 
7.[26] 图 表 A 例 7 中 的 初始 分 布 产生 
(A.D1)™ Di(A1D1)" Di(A1D1) Di(A1D1)’ 
于 磁带 1~4 上 ,这 里 (A,D,)7 指 的 是 A1D1A1D1A1Di1A1D1A1Di1A1D1A1D1。 说 明 如 何以 “最 
好 ”的 方式 来 插入 诸 Au 和 Di( 所 谓 最 好 , 指 的 是 在 合并 时 所 处 理 的 初始 路 段 总 数 为 极 小 ) ,使 分 
布 变 成 为 
A(DA) (DA)”* (DA) (DA)” 
提示 :为 了 保持 奇偶 性 ,有 必要 把 许多 A。 和 Do 作为 相 邻 的 对 偶 插 入 。 每 个 初始 路 段 的 合并 
数 ,可 以 像 在 习题 5.4.4-5 中 那样 来 计算 ;由 于 相 邻 的 路 段 总 有 相 邻 的 合并 数 ,就 会 出 现 某 些 简 
化 。 
8.[20] 图 表 和 A 说 明 , 路 段 初始 分 布 的 大 多 数 方案 (对 于 级 联合 并 的 初始 分 布 例外 ), 都 趋 加 
于 把 相继 的 路 段 置 到 不 同 的 磁带 上 。 如 果 相 继 的 路 段 放 到 相同 的 磁带 上 , 则 我 们 可 以 节省 停止 / 
启动 时 间 ;如 果 因 此 而 修改 分 布 算法 ,以 减少 磁带 的 转换 次 数 , 是 一 个 好 的 想法 吗 ? 
9.[22] 如 果 我 们 对 于 排序 都 用 T= 6 条 磁带 ,而 不 是 像 在 例 7 中 那样 用 全 = 5 条 磁带 , 试 位 
计 图 表 A 中 的 向 后 读 多 阶段 算法 将 会 多 长 。 避 免 使 用 输入 磁带 是 明智 的 吗 ? 
10.[M23] 使 用 5.4.2 小 节 和 5.4.3 小 节 的 分 析 ,证 明 在 一 个 标准 的 6 条 磁带 的 多 阶段 或 级 
联合 并 期 间 ,每 次 重 绕 的 长 度 很 少 超过 文件 的 大 约 54% (初始 和 最 后 的 重 绕 除外 ,它们 遍及 整个 
文件 )。 
11.123] 通过 修改 表 1 中 适当 的 项 , 试 估计 ,如 果 我 们 有 一 个 联合 的 低速 /高 速 重 绕 , 则 图 表 
A 的 前 9 个 例子 将 花费 多 长 时 间 ? 假定 磁带 未 装 满 1/4 时 e=1, 并 假定 更 满 的 磁带 的 重 绕 时 间 近 


似 于 5s 加 上 当 o= 气 时 花费 的 时 间 。 试 改变 例 8, 使 得 它 使 用 有 找 由 的 级 联合 并 ,因为 在 这 种 情 


况 下 重 绕 和 向 前 读 比 拷贝 更 慢 [提示 :使 用 习题 10 的 结果 ]。 

12.[40] 考虑 把 6 条 磁带 划分 成 3 对 磁带 ,每 对 在 T=3 的 多 阶段 合并 中 起 着 一 条 磁带 的 作 
用 。 每 对 的 一 条 磁带 将 包含 块 1,3,5… 而 另 一 条 磁带 将 包含 块 2,4,6,… ;这 样 一 来 ,合并 时 ,实质 
上 我 们 总 有 两 条 输入 磁带 和 两 条 输出 磁带 在 活动 ,这 等 效 于 加 倍 了 合并 的 速度 。 
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a) 试 找 出 一 个 适当 的 方式 把 算法 下 推广 到 这 一 情况 。 应 有 多 少 个 缓冲 区 ? 

b) 如 果 用 这 个 方法 对 100 000 个 100 个 字符 的 记录 排序 ,考虑 向 前 读 和 向 后 读 两 种 情况 , 试 
估计 总 共 的 运行 时 间 将 是 多 少 ? 

13.120」 按照 算法 5.4.5B 中 的 定义 ,一 个 5 磁带 振荡 排序 可 否 用 来 对 4 个 满 卷 的 输入 数据 
排序 ,直到 最 后 合并 时 为 止 ? 

14.LMI9] 推导 (10)。 

15. LHM29] 证 明 go(z)=ho(z)/(1-z), 其 中 ho(z) 是 单位 圆 里 边 没有 奇 点 的 z 的 一 个 有 
理 函 数 ;因此 当 n 一 时 ,ai% = ho(1)n+ O(1), 特 别 证 明 


0 — po 0 0 1 — po 0 

0 1-z -po 0 1 1-z -po 
det 

0 -pp 1l1-p: -po 1] -pp 1l1-p: -po 

1 0 0 0 0 0 一 1 1 J 


16.L41」 假定 可 利用 3、4 或 5 条 磁带 时 , 像 在 图 表 A 中 那样 画 出 图 表 , 详 细 研 究 对 100 000 
个 100 字符 的 记录 的 排序 问题 。 


“$5.4.7 外 部 基数 排序 


前 面 几 市 已 经 讨论 了 通过 合并 进行 磁带 排序 的 过 程 ;但 是 还 有 另外 一 种 用 磁带 
进行 排序 的 方式 , 它 的 依据 是 机 械 的 卡片 排序 机 (参见 5.2.5 小 节 ) 所 用 的 基数 排序 
原理 。 这 个 方法 有 时 称 为 分 布 排序 、 列 排序 、 袋 排序 数字 排序 、 分 开 排 序 等 ;可 以 证 
明 , 它 实际 上 恰 与 合并 相对 立 ! 

例如 ,假设 有 4 条 磁带 和 仅 有 8 种 可 能 的 键 码 :0,1,2,3,4,5,6,7。 如 果 输 入 数 
据 在 磁带 1 上 , 则 开始 我 们 可 以 把 所 有 的 偶 键 码 传送 到 T3, 把 所 有 的 奇 键 码 送 到 
工 4 : 


0 | 


h,(1) = det 





T1 工 2 13 TT4 
给 定 (10,1,2,3,4,5,6,7| 一 一 一 
扫描 1 10,2,4,6| {1,3,5,7| 


现在 我 们 重 绕 ,并 读 T3 而 后 读 T4, 把 10,1,4,5| 置 于 Tl 上 ,|12,3,6,7} 置 于 T2 上. 
扫描 2 10,4111,5| 12,6113,7| 一 一 


从 号 “{0,4111,5}” 表 示 一 个 文件 ,这 个 文件 包含 某 些 记 录 , 它 们 的 键 码 都 是 0 或 4， 
后 边 跟着 键 码 都 是 1 或 5 的 记录 。 注 意 ,TI1 现在 包含 的 诸 键 码 的 中 间 二 进 数 字 均 
为 0。 在 再 次 重 绕 和 分 布 0,1,2,3 到 TT3 以 及 4,5,6,7 到 T4 之 后 ,有 

扫描 3 {01 {1}1{2143} {4}15}1611{7} 


现在 我 们 可 以 通过 拷贝 T4 到 T3 的 末尾 来 结束 。 一 般 地 ,如 果 键 码 的 范围 是 从 0 

到 2* 一 1, 则 我 们 可 以 利用 & 赵 扫 描 , 以 类 似 的 方式 对 文件 排序 ,后 边 接 之 以 最 后 的 

“收集 "阶段 , 它 从 一 条 磁带 拷贝 大 约 一 半 的 数据 到 另 一 条 磁带 。 若 用 6 条 磁带 , 则 

可 以 以 类 似 的 方式 ,使 用 基数 3 的 表示 ,在 & 趟 扫描 中 对 从 0 到 3* 一 1 的 键 码 排序 。 
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也 可 以 使 用 部 分 扫描 的 方法 。 例 如 ,假设 有 10 种 可 能 的 键 码 10,1,…9} ,考虑 
由 R.L. Ashenhurst 给 出 的 下 列 过 程 [Theory of Switching , Progress Report BL-7 
(Harvard ‘Univ. Comp. Laboratory:May 1954),I.1~1.76]: 


阶段 T1 T2 T3 T4 扫描 
10 ,1 9] 一 一 一 

1 一 10 ,2 ,4 ,7| |1,5,6| 13,8,9| 1.0 
2 10| 一 |1,5,6} {2,7|} 13,8,9}14| 0.4 
3 {0} {11{21 {61 4171 一 13,8,9} 141151 0.5 
4 {01 11} {21} 413] 161 {17} {81 {9} (41 15] 0.3 
收集 0111{21{31{44… {9] 0.6 

2.8 


如 果 每 个 键 码 值 出 现 的 机 会 大 约 为 1/10, 则 上 述 过 程 只 花费 2.8 趟 扫描 来 对 10 个 
键 码 排序 ,而 第 一 个 例子 则 需要 3.5 次 扫描 来 对 仅仅 8 个 键 码 排序 。 因 此 我 们 发 
现 ,无 论 是 基数 排序 还 是 合并 ,由 于 所 使 用 的 分 布 型 式 巧妙 不 同 , 其 结果 可 以 是 很 不 
一 样 的 。 

上 述 例 子 中 的 分 布 型 式 可 以 方便 地 表示 成 树 结构 : 


例 1 例 2 
A A 
0 0 
C D B C D 
2) 3) (2) (3) (5) 
A B A B 4 C D A/B|I \D A/B| \C 
4) 6) (5) (7) DD & DGD OD (WU 
C/ \D C D CcC p cp 0 Ag4 Ya 4 Ya 4 
| (8) Do 器 OO) OD QD |] (9) [Li | _ | | 
0 2 1 3 2 4 6 5 8 9 
C C C C A 
国 | 图 图 国 


4 S 7 7 

这 些 树 圆 形 的 内 部 节点 编号 为 1,2,3,…, 对 应 于 这 一 过 程 的 步骤 1,2,3,…。 所 有 
树 的 旁边 分 别 标 以 磁带 名 A ,B,C,D( 代 蔡 T1,T2,T3,T4) ,以 说 明 这 些 记 录 的 去 
处 。 正 方形 的 外 部 节点 表示 一 个 文件 仅 包 含有 一 个 键 码 的 部 分 ,该 键 码 以 黑体 示 于 
此 节点 之 下 。 在 正方 形 节 点 上 方 的 线 旁 为 输出 磁带 的 名 字 ( 在 第 一 个 例子 中 为 C ， 
在 第 二 个 例子 中 为 A)。 

于 是 , 例 1 中 步骤 3 的 组 成 为 :从 磁带 D 读 入 并 写 1 和 5 到 磁带 A 上 , 写 3 和 7 
到 磁带 B 上 。 如 果 我 们 假定 每 个 键 码 都 同样 经 常 地 出 现 , 则 不 难看 出 ,所 执行 的 扫 
描 赵 数 等 于 树 的 外 部 路 径 长 度 除 以 外 部 节点 数 。 
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由 于 磁带 的 顺序 性 ,以 及 向 前 读 的 -fifo 的 原则 ,我 们 不 能 简单 地 使 用 任何 有 标 
号 的 树 来 作为 一 个 分 布 型 式 的 基础 。 在 例 1 的 树 中 ,在 步骤 2 和 步骤 3 期 间 数据 与 
到 磁带 A 上 ;在 我 们 使 用 步骤 3 期 间 所 写 的 数据 之 前 ,必须 首先 使 用 步骤 2 期 间 所 
写 的 数据 。 一 般 地 说 ,如 果 在 步骤 i 和 j 期 间 写 到 一 个 磁带 上 ,其 中 i<j, 则 我 们 必 
须 首先 使 用 在 步骤 i 期 间 写 的 数据 ; 当 树 包含 形 如 


加 


的 两 个 分 支 时 ,必须 有 <1。 并 且 不 能 在 步骤 和/ 之 间 向 磁带 A 上 写 任何 东西 ， 
因为 我 们 必须 在 读 和 写 之 间 进 行 重 绕 。 

已 经 做 了 5.4.4 小 节 习 题 的 读者 ,现在 会 立即 党 察 到 ,可 以 表示 在 T 条 磁带 上 
向 前 读 基 数 排 序 的 树 ,恰恰 就 是 “ 强 工 fifo” 树 , 它 表征 了 TT 条 磁带 上 的 向 前 读 的 合 
并 排序 (见习 题 5.4.4-20)! 惟一 的 差别 是 ,我 们 在 这 里 考虑 的 树 的 所 有 外 部 节点 都 
有 相同 的 磁带 标号 。 只 要 假定 一 个 最 后 的 “收集 阶段 ” ,这 个 阶段 把 所 有 记录 传送 到 
一 条 输出 磁带 上 ,我们 就 可 以 去 掉 这 个 限制 ;或 者 也 可 以 附加 这 个 限制 到 T-fifo 树 
的 诸 规 则 上 ,为 此 要 求 合 并 排序 的 初始 分 布 扫描 ,能 明显 地 在 对 应 的 合并 树 中 表示 
出 来 。 

换 句 话说 ,每 一 个 合并 型 式 对 应 于 一 个 分 布 型 式 , 而 每 一 个 分 布 型 式 对 应 于 一 
个 合并 型 式 。 稍 经 考虑 后 就 知道 为 什么 这 样 : 我 们 按 反 方向 做 合并 排序 ,首先 “ 拆 
开 ” 最 后 的 输出 成 为 一 些 子 文件 ,这些 子 文件 又 拆 开 成 其 它 的 ,等 等 。 最 后 ,我 们 将 
把 这 个 文件 拆 开 成 为 S 个 路 段 。 实 现 这 样 一 个 型 式 是 可 能 的 充 要 条 件 是 ,对 应 的 
基数 排序 分 布 型 式 对 于 S 个 键 码 来 说 是 可 能 的 。 合 并 与 分 布 之 间 的 这 种 对 偶 性 几 
乎 是 完全 的 ; 它 仅 在 一 个 方面 不 成 立 , 即 输入 磁带 的 内 容 必 须 在 不 同时 间 里 保存 。 

本 节 开 始 时 所 讨论 的 8 个 键 码 的 例子 ,显然 对 偶 于 4 条 磁带 上 的 一 个 平衡 合 
并 。 部 分 扫描 的 10 个 键 码 的 例子 ,对 应 于 下 列 10 路 段 的 合并 型 式 ( 如 果 去 抒 找 由 





阶段 即 树 中 的 步骤 6 一 11 一 一 的 话 ): 

Tl T2 T3 T4 
初始 分 布 14 13 11 1? 
树 步 又 5 13 1 一 1231 
树 步 骤 4 1° 1! 2! 1231 
树 步 又 3 11 - 2131 1131 
树 步 又 2 一 41 3! 31 
树 步骤 1 101 一 一 一 


如 果 把 此 同 基数 排序 进行 比较 , 则 我 们 看 到 ,这 些 方法 实际 上 都 有 相同 的 构造 ,但 在 
时 间 上 是 颠倒 的 ,同时 磁带 的 内 容 也 从 后 面 颠 倒 到 前 头 :13 (两 个 长 度 皆 为 1 的 路 
段 ,后 边 接 有 长 度 为 3 的 一 个 路 段 ) 对 应 于 {3,8,9}141151( 两 个 子 文件 ,每 个 包含 1 
个 键 码 ,前面 还 有 包含 3 个 键 码 的 一 个 子 文件 )。 
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换 一 种 方式 ,我 们 原则 上 也 可 以 构造 一 个 基数 排序 ,使 其 对 侦 于 多 阶段 合并 ,为 
一 个 对 偶 于 级 联合 并 ,等 等 。 例 如 ,在 5.4.2 节 开 始 所 说 明 的 在 3 条 磁带 上 的 21 个 
路 段 的 多 阶段 合并 ,对 应 于 下 列 有 趣 的 基数 排序 : 


阶段 T1 T2 T3 
10,1,… ,20| 一 一 
1 一 10,2,4,5,7,9,10,12,13,15,17,18,20} |1,3,6,8,11,14,16,19| 
11,3,6,8,11,14,16,19| 
2 10,5,10,13,18} 一 


12,4,7,9,12,15,17,20| 
3 10,5,10,13,18111,6,11,14，19| 3 .8.1614.9.17| _ 
12,7,12,15,20| 
1 _ | 人 0 18| 10,13111,141 (215 
10 ,13111,14112 ,15| 
{3,161…{7,20} 


6 |81491{101{111|11211131…|20| [01 114…17| - 


这 里 用 来 决定 在 每 个 步骤 中 哪些 键 码 进 到 哪些 磁带 上 的 分 布 规则 ,似乎 是 玄妙 的 ， 
但 是 事实 上 它 与 斐 波 那 契 数 系统 有 着 一 种 简单 的 联系 (见习 题 2)! 
向 后 读 “ 基 数 排序 和 合并 之 间 的 对 偶 性 也 可 应 用 于 向 后 读 的 算法 。 我 们 已 经 在 
5.4.4 小节 定义 了 “T-lifo 树 ”, 容 易 看 出 ,它们 对 应 于 基数 排序 ,也 对 应 于 合并 排序 。 
实际 上 ,在 1946 年 John Mauchly 就 已 考虑 过 向 后 读 的 基数 排序 , 那 是 关于 排序 
的 最 早 发 表 的 论文 之 一 (参见 5.5 节 );Mauchly 实际 上 给 出 了 下 列 构造 : 


5 i181 {9} 1101 41111{121 一 


阶段 Tl T2 T3 T4 
一 10 ,1,2 ,…9} 一 一 
1 14 ,5| 一 12,3,6,7| {0,1,8,9| 
2 14,5} 12,71 13,6| 一 10 ,1 ,8 ,91 
3 14,5112,7110,9} 13,6 且 181 一 — 
4 14,51|2,71 {13,6111,81 191 101} 
8 一 一 191181 生 上 6 101 {4114121413H41 
C 一 一 一 [01 41112713114} 451…191 


他 的 方案 并 不 是 最 有 效 的 ,但 它 却 是 有 趣 的 ,因为 它 说 明 , 在 1946 年 即 已 考 上 处 
过 在 基数 排序 中 使 用 部 分 扫描 方法 ,尽管 直到 大 约 1960 年 以 前 它们 还 未 出 现在 关 
于 合并 的 著作 中 。 

向 后 读 分 布 型 式 的 一 个 有 效 的 构造 已 经 由 A.Bayes 提出 [CACM 11(1968),491 
~ 493]; 给 定 P+1 条 磁带 和 S 个 键 码 ,把 这 些 键 码 分 成 为 P 个 子 文件 ,每 一 个 含 
| S/P | 或 [S/P] 个 键 码 ,并 递归 地 应 用 这 个 过 程 于 每 个 子 文件 。 当 S<2P 时 ,一 个 
子 文件 应 仅 由 最 小 的 键 码 所 组 成 ,而 且 它 应 被 写 到 输出 文件 中 (R.M.Karp 的 一 般 
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先 序 构造 包括 这 个 方法 作为 其 特殊 情况 ,Karp 的 方法 出 现在 5.4.4 人 小 节 末 尾 )。 

向 后 读 使 合并 稍微 复杂 化 了 ,因为 它 颠 倒 了 路 段 的 次 序 。 对 于 基数 排序 有 相应 
的 影响 : 它 使 得 结果 是 稳定 的 或 “不 稳定 的 ”取决 于 在 树 中 达到 什么 级 。 在 一 个 同 后 
读 的 基数 排序 一 一 其 中 某 些 外 部 节点 在 奇数 级 上 , 而 某 些 在 偶数 级 上 一 一 之 后 , 具 
有 相等 键 码 的 不 同 记 录 的 相对 次 序 ,对 于 某 些 键 码 将 和 原始 次 序 相 同 ,但 对 于 其 它 
键 码 , 则 将 和 原来 的 次 序 相 反 ( 参 见习 题 6) 。 

振荡 合并 排序 也 有 它们 在 对 偶 意 义 下 的 配对 物 。 在 一 个 振荡 基数 排序 中 ,我 们 
继续 分 开 键 码 ,直到 达到 仅 有 一 个 键 码 的 子 文 件 为 止 ,或 者 直到 子 文 件 小 到 足以 在 
内 部 进行 排序 为 止 。 对 这 样 的 子 文件 排序 并 把 它们 写 到 输出 磁带 上 ,然后 继续 分 下 
去 。 例 如 ,如 果 有 3 条 工作 磁带 和 一 条 输出 磁带 ,并 且 如 果 键 码 是 二 进 制 数 , 则 我 们 
可 以 开始 把 形 如 “0zx” 的 键 码 放 在 磁带 Tl1 上 ,把 键 码 “1x" 放 到 T2 上。 如果 Tl 接 
收 一 个 以 上 的 内 存 负载 , 则 再 次 扫描 它 , 并 且 置 “00z ”到 T2 上 和 “01z 到 T3 上 。 
现在 如 果 “00x” 子 文件 短 到 足以 在 内 部 进行 排序 , 则 排序 并 输出 其 结果 ,然后 继续 
来 处 理 “01z” 子 文件 。 这 样 一 个 方法 被 E.H. Friend 称 为 “级 联 擅 基数 排序 "LACM 
3(1956),157 一 159];H. Nagler 进一步 发 展 了 这 个 方法 LJACM 6(1959) ,459 一 468 ] ， 
他 给 它 以 精采 的 名 称 “ 两 头 蛇 排序 ”。 而 C. H. Gaudette 也 发 展 了 这 一 方法 [IBM 
Tech. Disclosure Bull. 12(April,1970) ,1849 一 18S3 ] 。 

基数 排序 胜 过 合并 吗 ? 对偶 性 原理 的 一 个 重要 结果 是 基数 排序 通常 都 差 于 
合并 排序 。 这 是 由 于 替代 选择 技术 使 合并 排序 具有 一 定 的 优势 所 致 ; 没 有 明显 的 方 
式 来 安排 基数 排序 ,使 得 我 们 能 利用 同时 处 理 一 个 以 上 内 存 负 载 的 内 部 排序 。 确 
实 ,振荡 基数 排序 将 经 常 产 生 稍微 小 于 一 个 内 存 负 载 的 子 文件 ,所 以 分 布 型 式 将 对 
应 于 一 株 树 ,其 外 部 节点 较 使 用 合并 和 替代 选择 时 出 现 的 外 部 节 点 多 得 多 。 因 此 ， 
树 的 外 部 路 径 长 度 一 一 即 排序 时 间 就 增加 了 (参见 习题 5.3.1-33)。 

另 一 方面 ,外 部 基数 排序 有 其 应 用 。 例 如 ,假设 我 们 有 一 个 包含 某 大 公司 所 有 
职员 名 字 的 文件 ,名 字 以 字母 顺序 出 现 ;这 个 公司 有 10 个 部 门 ,而 且 希 望 按 部 门 来 
对 文件 进行 排序 ,同时 在 每 个 部 门 中 仍 保留 职员 的 字母 顺序 。 如 果 文 件 很 长 , 则 这 
就 是 一 个 应 用 稳定 的 基数 排序 的 理想 情况 ,因为 属于 每 个 部 门 的 记录 数 大 概 将 多 于 
通过 替代 选择 产生 的 初始 路 段 中 所 得 到 的 记录 个 数 。 一 般 说 来 ,如 果 键 码 的 值 范 围 
如 此 之 小 ,以 致 具有 同一 键 码 的 记录 集合 相当 内 存 大 小 的 两 倍 以 上 , 则 使 用 一 项 基 
数 排序 技术 是 明智 的 。 

在 5.2.5 小 节 我 们 已 经 看 到 ,在 某 些 高 速 计算 机 上 ,内 部 基数 排序 优 于 合并 排 
序 ,因为 基数 排序 算法 的 “内 循环 ”避免 了 复杂 的 分 支 。 如 果 外 存 特 别 快 , 则 这 样 的 
机 器 不 可 能 足够 快 地 合并 数据 ,以 赶 上 输入 输出 设备 。 因 此 ,可 以 证 明 在 这 种 情况 
下 基数 排序 优 于 合并 ,特别 是 ,如 果 已 知 键 码 是 一 致 地 分 布 时 。 





习题 


1.[20] 在 5.4 节 接近 开始 处 ,我 们 定义 了 具有 参数 P,1 三 P<TT 的 一 般 的 TT 条 磁带 的 平衡 
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合并 。 证 明 其 对 应 于 一 个 使 用 一 个 混合 基数 系统 的 基数 排序 。 

2.LM28」 正文 中 说 明了 对 于 21 个 键 码 的 3 磁带 多 阶段 基数 排序 。 试 把 它 推广 到 F, 个 键 码 
的 情况 ;说明 在 每 个 阶段 的 最 后 ,什么 键 码 出 现在 什么 磁带 上 [提示 :考虑 斐 波 那 契 数 系统 ,习题 
1.2.8-34] 。 


3.[M35」 把 习题 2 的 结果 推广 到 4 条 磁带 或 更 多 磁带 上 的 多 阶段 基数 排序 (参见 习题 
5.4.2-10)。 

4.[M23 |」 试 证 明 ,Ashenhurst 的 分 布 型 式 是 不 向 后 读 的 .在 4 条 磁带 上 对 10 个 键 码 进行 排 
序 的 最 好 方式 ,因为 在 所 有 “ 强 4-fifo 树 ”中 ,与 这 种 型 式 相 应 的 树 有 极 小 的 外 部 路 径 长 度 ( 于 是 如 
果 我 们 忽略 重 绕 时 间 , 则 它 实 质 上 是 最 好 的 方法 )。 

5.[15] 画 出 对 应 于 10 个 键 码 的 Mauchly 向 后 读 基数 排序 的 4-lifo 树 。 

6.L20] 某 个 文件 包含 两 位 数字 的 键 码 00,01,…,99。 在 执行 了 对 于 个 位 数字 的 Mauchly 基 

数 排序 之 后 ,交换 T2 磁带 和 T4 磁带 的 作用 ,我 们 可 以 对 十 位 数字 重复 同一 方案 。 问 在 T2 磁带 
上 键 码 最 终 将 以 什么 次 序 出 现 ? 

7.[21」 对偶 性 原理 也 适用 于 多 卷 文件 吗 ? 


“$5.4.8 双 磁 带 排序 


由 于 我 们 需要 3 条 磁带 来 实现 一 个 没有 过 多 的 磁带 运动 的 合并 过 程 , 因 此 探索 
如 何 只 用 两 条 磁带 就 实现 一 个 合理 的 外 部 排序 是 有 趣 的 。 

H.B.Demuth 于 1956 年 提出 的 一 个 方法 ,是 综合 蔡 代 选择 和 冒 泡 排 序 的 一 种 
排序 。 假 定 输入 在 磁带 TI 上 ,开始 读 P+1 个 记录 到 内 存 中 。 现 在 输出 其 键 码 为 
最 小 的 记录 到 磁带 T2 上 ,并 且 代 之 以 下 一 个 输入 记录 。 维 护 一 个 选择 树 或 P+1 
个 元 素 的 优先 队 ,可 继续 输出 当前 内 存 中 具 最 小 键 码 的 记录 。 当 最 终 穷尽 输入 时 ， 
这 个 文件 的 最 大 的 P 个 键 码 将 出 现在 内 存 中 ;以 递增 次 序 输出 它们 。 现 在 重 绕 这 
两 条 磁带 并 且 通 过 从 T2 读 和 向 T1 写 来 重复 这 个 过 程 ;每 趟 这 样 的 扫描 ,都 至 少 安 
排 好 又 一 组 已 个 记录 到 它们 的 适当 位 置 。 程 序 中 可 加 进 一 个 简单 的 检验 ,以 确定 
整个 文件 何 时 排 好 序 。 最 多 需要 | (N -1)/P1 趟 扫描 。 

稍 经 考虑 后 表明 ,这 个 过 程 的 每 一 趟 扫描 ,实际 上 就 等 价 于 冒 泡 排序 (算法 
5.2.2B) 的 PP 趟 连续 扫描 。 如 果 一 个 元 素 有 P 个 或 更 多 的 反 序 , 则 当 它 输入 时 , 它 
将 比 树 中 的 一 切 都 小 ,所 以 它 将 立即 被 输出 (因此 失去 P 个 反 序 )。 如 果 一 个 元 素 
有 少 于 PP 个 反 序 , 则 它 将 进入 到 选择 树 中 ,而 且 将 在 所 有 比 它 大 的 键 码 之 前 先 被 输 
出 一 一 由 此 失去 它 的 全 部 反 序 。 当 P=1 时 ,由 定理 5.2.21, 这 恰 是 冒 泡 排序 的 情 
所 。 

因此 扫描 的 总 趟 数 将 是 | JI/P1, 其 中 工 是 各 元 素 反 序 的 极 大 个 数 , 按 5.2.2 节 中 
发 展 的 理论 ,I 的 平均 值 为 N 一 VxN/2+2/3+ O(l/VN)。 

如 果 文 件 不 比 内 存 容量 大 很 多 ,或 者 它 几 乎 一 开始 就 是 排 好 序 的 , 则 这 个 PP 阶 
的 骨 泡 排序 将 是 相当 快 的 ;事实 上 ,甚至 当 有 额外 的 磁带 机 可 利用 时 ,使 用 它 也 可 能 
是 更 有 利 的 ,因为 空白 带 还 必须 要 由 一 个 操作 员 来 安装 。 但 是 ,两 磁带 冒 泡 排序 对 
相当 长 的 随机 排序 文件 ,将 运行 得 十 分 慢 , 因 为 它 的 运行 时 间 近 似 于 同 N? 成 比例 。 

让 我 们 来 看 看 对 于 5.4.6 小 节 的 100 000 个 记录 的 例子 ,这 个 方法 如 何 实现 ? 
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我 们 需要 明智 地 选择 P, 以 便 补 偿 同 时 进行 读 、 写 和 计算 时 的 块 间 间 隅 。 由 于 这 个 
例子 假定 每 个 记录 的 长 度 是 100 个 字符 ,有 100 000 个 字符 将 填 入 内 存 , 故 可 以 通过 
置 
100(P +1)+4B = 100 000 (1) 

为 大 小 为 B 的 两 个 输入 缓冲 区 和 两 个 输出 缓冲 区 提供 位 置 。 利 用 5.4.6 小 节 的 符 
号 ,每 趟 扫描 的 运行 时 间 将 大 约 是 

INCwr(1 + 0 w= (B+7Y)/B (2) 
由 于 扫描 数 同 P 成 反比 ,我 们 需要 选择 B 为 100 的 倍数 , 它 把 量 w/P 极 小 化 。 初 
等 微 积分 说 明 , 当 B 近似 于 V249757Y + y* 一 7 了 时 出 现 极 小 ,所 以 我 们 取 B= 3000， 
P=879。, 在 上 述 公式 中 置 N = 100 000, 就 看 出 扫描 的 次 数 [ JJ/P | 将 大 约 是 114, 而 总 
共 的 运行 时 间 将 近似 于 8.57h( 为 方便 起 见 ,假定 初始 输入 和 最 后 的 输出 也 是 B= 
3000)。 这 大 约 相当 于 满 卷 数据 的 0.44 倍 ; 一 个 满 卷 将 大 约 有 5 倍 之 长 。 如 果 周 期 
地 中 断 算 法 的 运行 ,把 有 最 大 键 码 的 记录 写 到 一 条 辅助 磁带 上 并 把 它 印 下 ,那么 我 
们 可 做 某 些 改进 ,因为 一 旦 这 样 一 些 记 录 已 按 顺 序 放置 了 ,所 需要 的 只 不 过 是 向 前 
和 向 后 找 贝 它们 罢了 。 


快速 排序 的 应 用 ” 另 一 个 以 近乎 顺序 的 方式 遍历 数据 的 内 部 排序 方法 是 分 划 
交换 或 快速 排序 过 程 算 法 5.2.2Q, 我 们 能 否 使 它 适 应 两 条 磁带 呢 | N. B. Yoash， 
CACM 8(1965) ,649]? 

利用 向 后 读 , 即 不 难看 到 这 可 以 如 何 完成 。 假 设 把 两 条 磁 市 编号 为 0 和 1, 而 且 
想像 文件 的 安排 如 下 : 





磁带 的 开始 当前 位 置 当前 位 置 磁带 的 开始 
(“底部 ” “顶部 ”) (“顶部 ”) (“底部 ”) 
每 一 条 磁带 用 作 一 个 栈 ;把 它们 像 这 样 放 在 一 起 ,就 有 可 能 把 文件 看 做 一 个 线性 表 ， 
其 中 ,通过 从 一 个 栈 拷贝 到 另 一 个 栈 , 我 们 可 以 左右 移动 当前 的 位 置 。 下 列 的 递归 
子 例 程 定义 了 一 个 适当 的 排序 过 程 : 

.SORT00 [对 磁带 0 顶部 的 子 文件 排序 ,并 且 把 它 记 回 到 磁带 0 上 

如 果 这 个 子 文件 在 内 存 中 放 得 下 , 则 对 它 内 部 排序 并 把 它 返 回 磁 带 上 。 否 则 融 
从 这 个 子 文件 选择 一 个 记录 R, 令 它 的 键 码 为 K。 在 磁带 0 上 向 后 读 ,拷贝 其 键 码 
>K 的 所 有 记录 ,在 磁带 1 的 顶部 形成 一 个 新 的 子 文件 。 现 在 在 磁带 0 上 向 前 读 ， 
找 贝 其 键 码 = K 的 所 有 记录 到 磁带 1 上 。 然 后 再 次 向 后 读 ,把 键 码 < 的 所 有 记 
录 拷贝 到 磁带 1 上 。 通 过 对 于 < K 的 键 码 执行 SORT10 而 完成 排序 ,然后 把 = 天 
的 键 码 拷贝 到 磁带 0 上 ,最 后 对 于 >>K 的 键 码 执行 SORT10。 

.SORT01 [对 磁带 0 顶部 的 子 文件 排序 并 把 它 写 到 磁带 1 上 ] 和 SORT00 一 样 ， 
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但 是 最 后 的 “SORT10” 改 为 “SORT11” ,之 后 紧 接 着 拷贝 二 K 的 键 码 到 磁带 1 上 。 

.SORT10 [对 磁带 1 顶部 的 子 文件 排序 并 把 它 写 到 磁带 0 上 j 和 SORT01 一 
样 , 只 是 交换 0 和 1, 以 及 交换 < 和 >。 

‘SORT11 [对 磁带 1 顶部 的 子 文件 排序 并 且 把 它 送 回 到 磁带 1 上 」 和 
SORT00 一 样 ,交换 0 和 1 以 及 交换 < 和 >。 

这 些 子 例 程 的 递归 性 ,可 以 毫 无 困难 地 通过 在 磁带 上 存放 适当 的 控制 信息 ,来 
加 以 处 理 。 

如 果 我 们 假定 数据 是 按 随 机 次 序 排列 的 ,同时 有 相同 键 码 的 概率 可 了 予 忽略 , 则 
对 这 个 算法 的 运行 时 间 可 估计 如 下 : 设 M 是 装 满 内 部 内 存 的 记录 个 数 , 令 XN 是 当 
N > M 时 在 应 用 SORT00 或 SORT11 于 N 个 记录 的 一 个 子 文件 时 所 平均 读 的 记录 
个 数 , 令 YN 是 对 于 SORT01 或 SORT10 对 应 的 量 ,于 是 我 们 有 


0 如 果 广 委 M 
XN = by 十 1+ Dn Ys + YN 1) 如 了 果 N > M 

0 如 果 N<M 全) 
ae 如 果 N > M 


这 些 递 推 式 的 解 (见习 题 2) 表 明 , 当 N~> co 时 ,在 外 部 分 划 阶段 期 间 读 磁带 的 
总 数量 ,平均 说 来 ,将 是 6 所 NinN + O(N)。 从 等 式 5.2.2-(25) 我 们 还 知道 ,内 部 


排序 阶段 的 平均 数 将 是 2(N+1)/(M+2) 一 1。 

如 果 把 这 一 分 析 应 用 于 5.4.6 小 节 的 100 000 记录 的 例子 ,并 且 利 用 25 000 个 
字符 的 缓冲 区 ,以 及 假定 对 于 2” 迄 M = 1000 个 记录 的 一 个 子 文件 ,排序 时 间 是 
2nCewr , 则 我 们 得 到 近似 于 103min 的 平均 排序 时 间 ( 如 同 图 表 A 中 那样 包括 最 后 的 
重 绕 时 间 )。 这 样 快 速 排序 方法 平均 说 来 还 不 坏 ,当然 , 它 的 最 坏 情 况 证 明 甚 至 比 上 
面 讨论 过 的 冒 泡 排序 更 为 糟糕 ! 


基数 排序 ”基数 交换 方法 (算法 5.2.2R) 可 以 以 类 似 的 方式 适用 于 两 条 磁带 的 排序 ， 
因为 它 很 像 快速 排序 。 使 这 两 种 方法 都 有 效 的 “技巧 ”, 是 不 止 一 次 地 读 一 个 文件 的 思 
想 , 这 是 我 们 以 前 的 磁带 算法 所 从 未 做 过 的 。 

同样 的 技巧 亦 可 应 用 于 在 两 条 磁带 上 进行 一 种 通常 的 “首先 比较 最 低位 有 效 数 
字 ” 的 基数 排序 。 给 定 磁带 Tl1 上 的 输入 数据 ,我 们 把 所 有 其 键 码 在 二 进 制 符号 下 以 
0 结尾 的 记录 都 拷贝 到 T2 上 ;然后 在 重 绕 Tl 之 后 ,再 次 读 它 ,同时 拷贝 其 键 码 以 1 
结尾 的 记录 。 现 在 两 条 磁带 都 被 重 绕 ,而 且 做 类 似 的 一 对 扫描 ,并 有 旦 交换 Tl 和 2 
的 作用 ,并 使 用 第 二 个 最 低位 有 效 二 进 制 数 字 。 这 时 ,Tl 将 包含 其 键 码 为 (…00)， 
的 所 有 记录 , 紧 接着 是 其 键 码 为 (…01), 的 ,然后 是 键 码 为 (…10), 的 ,然后 是 
(…11); 的 。 如 果 键 码 是 5b 位 长 , 则 为 了 完成 这 个 排序 ,我 们 仅仅 需要 对 文件 进行 
20 次 扫 摘 。 
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对 于 某 些 审慎 地 选择 的 数 5b ,这样 一 种 基数 排序 可 仅 应 用 于 键 码 前 面 的 位; 
如 果 键 码 是 一 致 地 分 布 的 ,这 将 使 反 序 的 个 数 减 少 大 约 2” 的 一 个 因子 ,所 以 可 以 用 
较 少 次 扫描 的 已 路 冒 泡 排 序 来 完成 这 一 作业 。 这 一 方法 仅 以 向 前 的 方向 读 磁 带 。 
A.I.Nikitin 和 L. 1I. Sholmov[Kibernetika 2,6(1966) ,79 一 84] 提 出 了 对 于 两 条 
磁带 分 布 排序 的 一 个 新 颖 但 稍 更 复杂 的 方法 。 计 算 其 前 几 位 为 各 种 可 能 组 合 的 键 
码 的 个 数 , 并 根据 这 些 计数 构造 人 为 的 键 码 x1 ,x,,，… ,km ,使 得 对 于 每 个 i, 位 于 x; 
和 wi+1 之 间 的 实际 键 码 的 个 数 , 是 在 预先 确定 的 极限 P| 和 P; 之 间 。 于 是 , M 位 于 
| N/P, | 和 | NAPI | 之 间 。 如 果 前 儿 位 的 计数 未 给 出 充分 的 信息 以 确定 这 样 的 ki ,w%， 
Ne Oe Se RE Oe Gg st 
ee 在 构造 了 人 为 的 键 码 ki ,x ，… ,km 的 表 之 后 ,2| lgM | 
一 步 的 扫描 足以 来 完成 这 个 排序 (这 个 方法 要 求 同 N 成 比例 的 存储 空间 ,所 以 
We 它 不 能 用 于 外 部 排序 。 实 际 上 我 们 将 不 对 多 卷 文件 使 用 此 技术 ,所 以 
M 将 总 是 比较 小 的 ,而 且 人 为 的 键 码 一 定 能 从 容 地 存 人 内 存 )。 


更 多 磁带 的 模拟 F.C.Hennie 和 R.E.Stearns 想 出 了 仅 在 两 条 磁带 上 模拟 到 
条 磁带 的 一 般 技 术 ,其 方法 是 ,所 需要 的 磁带 运动 仅 以 O(logL ) 的 一 个 因子 增加 ,其 
中 工 是 在 任 一 条 磁带 上 遍历 的 极 大 距离 [JACM 13(1966),533 一 546]。 他 们 的 构 
造 , 如 同 R.M.Karp 所 提出 的 下 列 方法 那样 ,在 排序 的 情况 下 ,可 稍 做 简化 。 

利用 两 条 磁带 TI1 和 T2 ,我 们 来 模拟 一 个 通常 的 4 条 磁带 的 平衡 合并 。 首 先 ， 
T1 用 来 保存 被 模拟 的 磁带 的 内 容 ,其 方式 由 图 86 给 出 ;我 们 想像 ,对 于 每 一 条 被 模 
拟 的 磁带 ,数据 写 到 4 个 “磁道 "上 (事实 上 ,磁带 没有 这 样 的 “磁道 ”, 块 1,5,9,13,… 
被 想像 为 磁道 1 ,而 块 2,6,10,14,… 被 想像 为 磁道 2, 等 等)。 另 一 条 磁带 T2, 仅 用 
作 辅 助 存储 ,以 帮助 Tl 移动 其 数据 。 

区 域 0 Sp 





图 86 在 Hennie-Stearns 构造 中 磁带 1 的 安排 , 非 空 白 的 区 域 磁 带 有 阴影 


每 个 磁道 的 块 组 成 一 些 区 域 ,每 个 区 域 分 别 包 含 1,2,4,8,…,2*,… 个 块 ,在 每 
个 磁道 上 的 区 域 &, 或 者 正好 装 满 2* 个 数据 块 ,或 者 完全 是 空 “i 例如 ,在 图 86 中 ， 
磁道 1 在 区 域 1 和 3 中 有 数据 ;磁道 2 在 区 域 0,1,2 有 数据 ;磁道 3 在 区 域 0 和 2; 
磁道 4 在 区 域 1 ;其余 的 区 域 都 是 空 日 。 

假设 我 们 正 从 磁道 1 和 磁道 2 把 数据 合并 到 磁道 3。 计算 机 的 内 存 中 有 两 个 组 
冲 区 用 于 两 路 合并 的 输入 ,加 上 第 三 个 缓冲 区 用 作 输 出 。 当 磁道 1 的 输入 缓冲 区 变 
空 时 ,我们 可 以 按 如 下 方式 重新 填 满 它 : 找 出 磁道 1 上 第 一 个 非 空 的 区 域 ,比如 说 ， 
区 域 & ,拷贝 它 的 第 一 个 块 到 输入 缓冲 区 ;然后 拷贝 其 它 2* -1 个 块 的 数据 到 T2 

* 330 ， 


5.4 外 部 排序 


上 ,并 把 它们 移动 到 磁道 1 的 区 域 0,1,… -1( 区 域 0,1,…,&=-1 现 在 被 填 满 而 区 
域 & 是 空白 )。 每 当 磁 道 2 的 输入 缓冲 区 变 空 时 ,一 个 类 似 的 过 程 用 来 重新 填 满 磁 
道 2 的 输入 缓冲 区 。 当 输出 缓冲 区 准备 好 要 写 到 磁道 3 时 ,我 们 颠倒 这 一 过 程 , 扫 
描 整 个 Tl 以 找 出 磁道 3 上 的 第 一 个 空白 区 域 , 比 如 说 区 域 ,同时 从 区 域 0,1,…， 
k 一 1 拷贝 数据 到 T2 上 。 由 输出 缓冲 区 的 内 容 加 以 扩充 的 T2 上 的 数据 ,现在 用 来 
填 满 磁道 3 的 区 域 &。 

这 一 过 程 要 求 有 能 力 写 到 磁带 1 的 中 间 , 而 不 破坏 该 磁带 上 随后 的 信息 ,如 同 
向 前 读 振 落 排 序 的 情况 (5.4.5 小 节 ) 那 样 。 如 果 采 用 适当 的 预防 措施 ,就 有 可 能 可 
靠 地 做 到 这 一 点 。 

为 把 磁道 1 的 2 一 1 个 块 送 进 内 存 , 所 需要 的 磁带 运动 的 数量 是 
3p<12 4.co24= cl24 1,c 是 某 个 常数 ,因为 在 每 2 步 中 我 们 只 扫描 到 区 域 
一 次 。 于 是 ,每 趟 合并 扫描 需要 O(NlogN ) 步 。 由 于 在 平衡 合并 中 有 O (logN ) 趟 
扫描 , 故 最 坏 情况 下 的 完全 排序 时 间 肯 定 是 O(N(logN)” ;这 在 渐 近 意义 下 比 快速 
排序 的 最 坏 情 况 好 得 多 。 

但 是 ,如 果 我 们 把 这 个 方法 应 用 到 5.4.6 小 节 的 100 000 个 记录 的 例子 上 , 它 实 
际 上 并 不 是 非常 好 的 ,因为 送 往 磁 带 1 的 信息 将 超出 一 卷 磁 带 的 内 容 。 即 使 忽略 这 
一 事实 ,而 且 即 使 使 用 关于 读 / 写 /计算 重合 以 及 块 间 间隔 长 度 等 最 乐观 的 假定 ,我 们 
会 发 现 ,为 完成 这 一 排序 , 仍 将 需要 大 约 37h! 所 以 这 个 方法 只 有 纯 学 术 的 意义 ; 当 
N 是 在 一 个 实用 的 范围 时 ,O(N(logN)”) 中 的 常数 太 大 了 ,不 能 令 人 满意 。 


一 条 磁带 排序 ”我 们 能 否 只 用 一 条 磁带 呢 ? 不 难看 出 ,上 面 描 述 的 PP 阶 冒 泡 
排序 能 转化 成 一 条 磁带 的 排序 ,但 结果 可 能 是 极 坏 的 。 

H. B.Demuthl Ph.D. thesis(Stanford University, 1956),85 |] 发 现 , 具 有 有 限 内 存 
的 一 台 计 算 机 , 当 它 在 磁带 上 运动 有 限 距 离 时 , 它 所 能 减少 的 一 个 排列 的 反 序 个 数 ， 
不 多 于 一 个 有 限 的 数量 。 因 此 每 个 单 人 磁带 的 排序 算法 ,平均 说 来 至 少 必须 花费 
Nd 个 时 间 单 位 (其 中 4a 为 某 个 依赖 于 计算 机 的 配置 正 的 常数 )。 

R.M. Karp 以 一 种 非常 有 趣 的 方式 研究 了 这 个 课题 ,并 且 发 现 用 一 条 磁带 进行 
排序 的 一 个 最 优 方式 。 要 讨论 Karp 的 算法 ,最 好 把 这 个 问题 改变 如 下 :利用 单 部 电 
梯 在 各 楼 层 之 间 运 送 人 们 的 最 快 方法 是 什么 [参见 由 Randall Rustin 主编 的 Combi- 
natorial Algorithms (Algorithmics Press,1972) ,17 一 21]? 

考虑 一 个 n 层 的 建筑 物 , 每 层 上 的 房间 刚好 可 住 5 个人。 这 个 建筑 物 没 有 门 、 
窗 楼 梯 , 但 它 有 可 以 停 于 每 层 上 的 电梯 。 在 建筑 物 中 有 bn 个 人 ,在 每 个 特定 的 楼 
层 恰好 有 5 个 人 要 去 。 电 梯 至 多 能 容 m 个 人 ,而且 它 从 第 i 层 到 第 i+1 层 要 花费 
一 个 时 间 单 位 。 如 果 要 求 电梯 在 第 一 层 开 始 和 结束 的 话 ,我 们 希望 找 出 使 所 有 的 人 
都 到 达 适 当 层 的 最 快 方法 。 

不 难看 出 这 个 电梯 问题 和 单 磁带 排序 问题 之 间 的 联系 :人 是 记录 而 建筑 物 是 磁 
带 ,楼 层 是 磁带 上 个 别 的 块 ,而 电梯 是 计算 机 的 内 存 。 一 个 计算 机 的 程序 比 一 个 电 
棉 操 作 员 有 更 多 的 灵活 性 (例如 , 它 可 以 对 人 们 复制 或 御 时 把 他 们 分 成 不 同 层 上 的 
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两 部 分 ,等 等 ); 但 下 列 的 解法 不 必 做 这 样 的 操作 ,而 以 能 想像 到 的 最 快 时 间 来 解决 
这 个 问题 。 
Karp 的 算法 需要 下 列 两 张 辅助 表 : 
us，l1 三 kn: 在 过 & 的 层 上 其 目的 地 > 的 人 数 
J， 1 之 之 n: 在 之 4 的 层 上 其 目的 地 < 大 的 人 数 ‘4) 
当 电 梯 空 时 ,对 于 1 委 &<7 ,我 们 总 有 w= 4 ,1 ,因为 在 每 导 上 有 6 个 人 ;在 {1,…， 
1 层 上 等 待 乘 电梯 的 人 数 ,必须 等 于 在 {+1,…,n|j} 上 相应 的 人 数 。 由 定义 ,wu, = 
di1=0。 
显然 ,对 于 1 三 k< ,电梯 至 少 必须 进行 | w/m | 次 从 层 & 到 层 &+1 的 运行 , 因 
为 仅 mx 个 乘客 可 以 在 每 次 运行 中 上 楼 。 类 似 地 , 它 必须 至 少 进行 [ 4,/m | 次 从 第 & 
层 到 一 1 层 的 运行 ,因此 对 于 任何 正确 的 调度 ,电梯 至 少 需 论 费 


2 Tum + | ad,/m |) (5) 
个 时 间 单 位 。Karp 发 现 , 当 1,…,w, -1! 非 0 时 ,这 个 下 限 实际 上 可 以 达到 。 


定理 KK 加 时 对 于 1 三 k<n,u,>>0, 则 闻 在 一 个 电磁 调度 , 它 在 极 小 时 间 (5) 
之 下 载运 答 一 个 人 到 他 的 目的 地 。 

证 明 假定 在 建筑 物 中 有 额外 的 mx 个 人 ;他 们 开始 在 电梯 中 ,并 且 他 们 的 目标 
层 人 为 地 置 成 0。 电 梯 可 以 按照 下 列 算法 来 进行 操作 ,以 (当前 的 层 ) 等 于 1 开始: 






k>1,u_1>0 






Ek>1,uvkr_1=0 
或 k=1,u>0 


图 87 Karp 的 电梯 算法 
K1. [上 行 ] 请 当前 在 电梯 中 或 在 第 有 k 层 上 的 5+ m 个 人 中 ,有 最 大 目的 地 的 
那 2 个 人 上 电梯 ,而 其 余 的 人 留 在 & 层 上 。 
设 现在 电梯 上 有 w 个 人 的 目的 地 >&, 另 外 4 个 人 的 日 的 地 三 k (结果 将 是 
二 min(m ,wy) ;如果 uw < m, 则 可 能 要 运送 某 些 人 离开 他 们 的 目的 地 。 
这 表示 他 们 为 整体 利益 作出 牺牲 )。z, 减 u,4d,;| 加 4, 而 后 & 加 1。 
K2.[ 仍 然 往 上 ?] 如 果 x >0, 则 返回 步骤 K1。 
K3. [下 行 ] 请 当前 在 电梯 或 在 层 的 b+ m 个 人 当中 ,那些 具有 最 小 目的 地 
的 人 进 电梯 ,而 其 余 的 停留 在 层 上 。 
设 现在 电梯 中 及 个 人 的 目的 地 宇 &, 男 外 了 4 个 人 的 目的 地 <&( 结 果 将 总 
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是 久 =0 和 4= xm, 但 这 里 所 述 的 算法 仍 用 一 般 的 w 和 4 来 描述 ,为 的 是 
要 使 证 明 更 清楚 些 )。4d, 减 4,u_1 加 ,而 后 减 1。 | 
K4. [仍然 往 下 ?] 如 果 有 >1 和 _1>0, 则 返回 步骤 K3。 如 果 =1 和 wl=0 
则 此 算法 结束 (每 个 人 已 经 安全 到 达 他 的 目的 地 ,而 m 个 “额外 者 ”也 回 到 
电梯 中 )。 否 则 返回 到 步骤 K2。 
图 88 示 出 此 算法 的 一 个 例子 ,这 是 一 座 9 层 建 筑 物 上 且 5b =2,c=3。 注 意 , 尺 管 
电梯 走 的 是 最 小 的 距离 ,6 人 中 仍 有 1 人 被 暂时 送 到 第 7 层 。 在 步骤 K4 中 测试 
2 1 的 思想 ,如同 我 们 将 见 到 的 那样 ,是 本 算法 的 关键 。 


899 245 778 577 
层 7: - 1 一 1 一 人 538 一 56 一 77 
89 124 677 556 
层 6: 一 24 4 44 一 一 六 56 一 人 66 
677 445 456 455 
层 5: 一 89 Ns 
122 266 244 
层 4: 一 78 6 02 一 人 44 
667 122 
层 3 一 3 一 一 3 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 六 23 一 六 3 一 一 
667 112 123 122 
层 2:- 6 一 /0 一 一 0 一 -2 一 
6 011 
层 1: 一 36 一 00 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 次 11- 
000 000 
开始 结束 
图 88 利用 一 个 小 的 缓慢 的 电梯 来 重新 安排 人 们 的 最 佳 方式 
(每 个 人 以 他 的 目的 层 号 来 表示 ) 


为 了 证 明 这 个 算法 的 正确 性 ,我 们 注意 ,如 果 我 们 认为 在 电梯 里 的 人 是 在 “ 当 
前 ” 层 & 上 , 则 步骤 K1 和 K3 总 是 保持 x 和 4 表 (4) 的 内 容 是 最 新 的 。 现 在 有 可 能 
用 由 名 法 证 加 下 刚性 在 每 个 步骤 的 开始 时 均 成 立 : 


= dr 对 于 kl<n (6) 
M 一 Qt 一 WM 对 于 1 < l < k (7) 
w=0 如 果 w =0 和 之 1<n (8) 


进而 ,在 步骤 K1 的 开始 ,在 三 & 层 上 上 且 目的 地 >& 的 所 有 人 当中 ,具有 最 高 目的 地 
的 min(w ,m) 个 人 ,是 在 电梯 中 或 在 有 层 上 。 在 步骤 3 的 开始 ,在 之 & 层 且 目的 
地 < 的 所 有 人 当中 ,具有 最 低 目 的 地 的 min(d ,om ) 个 人 ,是 在 电梯 中 或 在 & 层 
上 。 
从 这 些 性 质 得 出 ,步骤 Kl 和 K3 中 括号 内 的 注释 是 正确 的 。 因 此 ,步骤 K1 的 
一 次 执行 都 使 | wx,/ za |] 减少 1 ,而 保持 | 4d, ,jj/m | 不 变 ; 步 又 K3 的 每 次 执行 都 使 
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Td,/m | 减少 1, 而 保持 [wu,_1/m | 不 变 。 因 此 这 个 算法 必定 在 有 限 步 之 内 结束 ,而 且 
每 个 人 由 于 (6) 和 (8) ,必然 处 于 正确 的 楼 层 F。 | 
当 ,=0 和 ,|>0 时 ,我 们 有 一 个 “ 断 开 " 的 状态 ;尽管 没有 人 要 从 三 的 层 
上 升 到 宇 k+1 的 层 ,电梯 还 是 必须 升 到 有 +1 层 以 便 重新 安排 那儿 的 人 。 不 失 一 般 
性 ,我 们 可 以 假定 u, -1>0; 于 是 每 个 正确 的 电梯 调度 都 必须 至 少 包 括 
2 >) max(1,T us,/m |) (9) 


次 移动 ,因为 我 们 要 求 电 梯 返 回 到 层 1。 达 到 这 一 下 限 的 调度 是 容易 构造 出 来 的 
(习题 4)。 


习题 


1.[20] 正文 中 讨论 的 已 阶 冒 泡 排 序 ,仅仅 使 用 向 前 读 和 重 绕 。 能 否 把 这 个 算法 修改 成 利用 
向 后 读 ? 

2.[M26] 求 出 在 (3) 中 定义 的 数 XN, Yn 的 明显 的 “封闭 形式 ”的 解 [提示 :分 析 等 式 5.2.2- 
(19) 的 解 ]。 

3.[38] 是 否 有 仅仅 基于 键 码 (不 是 数字 性 质 的 ) 比 较 的 两 条 磁带 的 排序 方法 , 当 对 N 个 记录 
进行 排序 时 , 它 的 磁带 运动 在 最 坏 的 情况 下 为 O(NiogN)[ 快 速 排序 平均 可 达到 这 一 点 ,但 在 最 
坏 情 况 下 不 行 ,而 Hennie-Stearns 方法 (图 86) 则 达到 O(NlogN)*)]? 

4.1LM23] 在 电梯 问题 中 ,假设 有 下 标 p 和 94, 目 9 之 p+2,u,>0,u,>0, 以 及 w+11 =…= 
zj _1=0。 说 明 怎 样 构造 至 多 需要 (9) 时 间 单 位 的 一 个 调度 。 

> 5. [M23 ] 真 或 假 :定理 区 中 ,在 算法 的 步骤 K1 之 后 ,电梯 中 人 的 目的 地 均 高 于 楼 层 <& 的 
所 有 人 的 目的 地 。 

6.[M30] (R.M.Karp) 把 电梯 问题 (图 88) 推 广 到 下 列 情形 :对 于 1 科 j 委 ”开始 时 在 7 层 
上 有 上 个 乘客 ,以 及 有 6 个 乘客 其 目的 地 是 j 层 。 证 明 存 在 一 个 调度 , 它 花费 2》)” max(1， 
[ulml1,[T diwi/m1) 个 时 间 单 位 , 且 在 任何 时 刻 绝 不 允许 在 层 ;} 上 有 多 于 max(b 6) 个 滋 客 [ 提 
示 :如 果 必 要 ,引进 虚构 的 人 ,使 得 对 于 所 有 的 j,b,=5)1]。 

7.[M40] (R.M.Karp) ”推广 习题 6 的 问题 ,用 一 个 客车 通过 的 磁道 路 网 络 来 代替 电梯 所 遵 
循 的 线性 通路 ,其 中 假定 该 网 络 形成 任意 的 自由 树 。 这 个 客车 容量 有 限 ,而 且 所 和 希望 的 是 ,客车 只 
行驶 最 小 的 距离 ,就 把 旅客 运送 到 他 们 的 目的 地 。 

8.[M32] 设 正文 所 讨论 的 电梯 问题 中 ,6=1。 问 n 层 上 的 mn 个 人 有 多 少 种 排列 ,使 得 在 (4) 
中 ,对 于 1 二 &k 声 nn, 有 二 1[ 例 如 ,3 14592687 就 是 一 种 这 样 的 排列 ]? 

Po9.[M25] 找 出 5.2.2 小 节 中 图 16 描述 的 “ 鸡 尾 混 合 排 序 ”" 和 在 5=1 时 (4) 的 数 |,w,，…， 
u, 之 间 的 重要 联系 。 
10.[20] 如 何 仅 用 两 条 磁带 来 对 多 卷 文 件 排序 ? 


“5.4.9 磁盘 和 磁 鼓 


前 面 我 们 一 直 把 磁带 作为 外 部 排序 的 工具 ,但 是 通常 还 有 更 为 灵活 的 大 容量 存 
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储 设备 可 用 。 尽 管 这 样 的 “海量 存储 ”或 者 “直接 存 取 存 储 ” 设 备 形式 五 花 八 门 , 但 它 
们 可 以 粗略 地 以 如 下 一 些 性 质 来 表征 

i) 被 存储 信息 的 任何 特定 部 分 都 可 快速 地 访问 。 

ii) 在 内 存 和 外 存 之 间 可 以 迅速 地 传输 连续 的 字 块 。 

磁带 满足 ii) 但 不 满足 i) ,因为 它 要 花费 较 长 时 间 来 从 磁带 的 一 端 达 到 另 一 端 。 

在 对 一 种 外 部 存储 编写 大 量程 序 之 前 ,都 应 当 仔 细 地 研究 它 具 有 的 一 些 特性 。 
但 是 技术 的 变化 如 此 迅速 ,以 致 在 这 里 不 可 能 对 所 有 可 利用 的 形形色色 的 硬件 进行 
完备 的 讨论 。 因 此 ,我们 将 仅仅 考 虚 某 些 典 型 的 存储 设备 ,这 些 设备 展示 了 对 于 排 
序 问题 有 用 的 方法 。 

满足 i) 和 i) 的 最 普遍 的 外 部 存储 类 
型 之 一 ,为 一 个 磁盘 设备 ( 见 图 89)。 数 据 
被 存放 在 一 些 急速 转动 的 圆 磁盘 上 ,这 些 
加 磁盘 上 涂 了 磁性 材料 ;一 个 像 梳 子 样 的 
存 取 臂 对 于 每 个 磁盘 面包 含 一 个 或 多 个 
“ 读 / 写 头 ”, 它 用 来 存储 和 检索 信息 。 每 个 
磁盘 面 分 成 称 做 为 磁道 的 同心 的 环 , 使 得 
每 当 这 个 磁盘 完成 一 次 转动 时 ,整个 磁道 
的 数据 就 通过 一 次 读 / 写 头 。 存 取 臂 可 以 
伸 进 和 伸 出 ,从 一 个 磁道 到 另 一 个 磁道 地 
移动 读 / 写 头 ; 但 这 种 运动 花费 时 间 。 可 以 图 89 一 个 磁盘 机 
不 必 重 新 定位 存 取 辟 就 能 读 或 写 的 一 组 磁 
道 , 称 为 一 个 柱 面 。 例 如 ,图 89 示 出 了 一 个 磁盘 设备 , 它 的 每 个 平面 恰 有 一 个 读 / 写 
头 ; 虚 圆圈 表示 一 个 柱 面 , 它 由 当前 正 被 读 / 写 头 扫描 的 所 有 磁道 所 组 成 。 

为 了 叙述 得 更 确切 一 点 儿 ,我 们 考虑 假想 的 MIXTEC 磁盘 组 设备 ,对 于 它 

1 个 磁道 = 5000 个 字符 
1 个 柱 面 = 20 个 磁道 
1 个 磁盘 设备 = 200 个 柱 面 

这 样 一 个 磁盘 设备 含有 2 千 万 个 字符 , 略 少 于 一 条 MIXT 磁带 上 所 能 存储 的 数据 量 。 
在 某 些 机 器 上 ,接近 中 心 的 磁道 的 字符 比 接近 边缘 的 磁道 要 少 ;这 势必 使 程序 设计 
更 为 复 林 ,六 而 ,MIXTEC 避免 了 这 样 的 问题 (参见 5.4.6 小 节 关 于 MIXT 磁带 的 讨论 。 
如 同 在 该 小 节 那 样 ,我 们 通过 考虑 对 20 世纪 70 年 代 早 期 来 说 典型 的 那些 机 器 特 
征 ,来 研究 典型 的 技术 ;现代 的 磁盘 要 大 得 多 ,也 快 得 多 )。 

在 一 个 磁盘 设备 上 为 读 和 写 所 需要 的 时 间 实 质 上 是 3 个 量 之 和 : 

' 寻 道 时 间 ( 为 把 存 取 臂 移动 到 适当 的 柱 面 所 需 时 间 )。 

等待 时 间 ( 读 / 写 头 到 达 正 确 位 置 之 前 的 转动 延迟 )。 

“传输 时 间 ( 数 据 通过 读 / 写 头 时 的 转动 延迟 )。 


在 MIXTEC 设备 上 为 从 柱 面 ;转移 到 柱 面 ) 所 需要 的 寻 道 时 间 为 25+ 二 1 一 j| 


存 取 和 辟 
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ms。 如 果 i 和; 是 在 1 和 200 之 间 随 机 选择 的 整数 , 则 |i 一 j| 的 平均 值 为 2(3°)/ 
200“ 守 66.7, 所 以 平均 寻 道 时 间 大 约 是 60ms。MIXTEC 磁盘 每 25ms 转动 一 圈 , 所 以 


等 待 时 间 平 均 约 12.5ms。n 个 字符 的 传输 时 间 是 (n/5000) x 25ms= 5nms( 这 大 约 


是 5.4.6 小 节 的 例子 所 用 MTXT 磁带 的 传输 速度 的 3 增 倍 ) 。 


因此 ,对 于 排序 来 说 ,MIXTEC 磁盘 和 MIXT 磁带 之 间 的 主要 差别 是 : 

a) 和 位 带 仅 可 被 顺序 地 存 取 ; 

b) 个 别 的 磁盘 操作 势必 要 求 相 当 多 的 开销 ( 寻 道 时 间 + 相对 于 停止 /启动 时 间 
的 等 得 时 间 ); 

co) 磁盘 传输 速度 比较 快 。 

通过 使 用 更 灵巧 的 磁带 的 合并 型 式 ,能 够 对 缺点 a) 做 些 补偿 。 我 们 现在 的 目标 
是 考虑 能 补偿 缺点 b) 的 某 些 灵巧 的 磁盘 排序 算法 。 

克服 等 待 时 间 ”让 我 们 首先 考虑 使 延迟 极 小 化 的 问题 。 延 迟 是 由 这 样 一 个 事 
实 引起 的 ,当局 动 一 条 输入 输出 指令 时 ,磁盘 往往 并 不 在 适当 的 位 置 上 。 我 们 不 能 
使 磁盘 旋转 得 更 快 , 但 可 以 应 用 某 些 技巧 ,来 减少 甚至 消除 所 有 的 等 待 时 间 。 加 上 
更 多 的 存 取 臂 显然 是 有 帮助 的 ,但 这 将 是 一 个 昂贵 的 硬件 修改 。 下 面 是 某 些 “ 软 件 ” 
的 思想 : 

1) 如 果 一 次 读 或 写 同 一 个 柱 面 的 若干 磁道 , 则 我 们 就 避免 了 除了 第 一 次 以 外 所 
有 磁道 上 的 等 待 时 间 ( 以 及 寻 道 时 间 )。 一 般 地 说 ,通常 都 有 可 能 以 这 样 一 种 方式 来 
同步 计算 时 间 和 磁盘 运动 的 时 间 , 即 可 以 无 须 等 待 延迟 而 执行 一 系列 的 输入 输出 指 
令 。 


2) 考 虚 读 半 个 数据 磁道 的 问题 ( 见 图 90) :如 果 当 磁头 在 点 A 时 开始 读 命令 , 则 
没有 等 待 延 迟 ,因而 用 于 读 的 总 时 间 恰 是 传输 时 间 地 X25ms。 如 果 当 磁头 在 点 B 


时 开始 这 命令 , 则 我 们 需要 转子 疾 以 用 于 等 待 和 转 二 图 用 于 传输 ,总 共 子 x 25ms。 
当 第 一 开始 位 于 C 时 出 现 最 有 趣 的 情况 :通过 适当 的 硬件 和 软件 ,我们 不 需要 浪费 
于 的 转动 用 于 等 待 延 迟 。 立 即 可 开始 读 , 读 到 输 


人 缓冲 区 的 第 二 半 ; 然 后 在 了 X25ms 的 中 止 之 


后 ,可 以 继续 读 到 这 个 缓冲 区 的 头 一 半 , 于 是 当 半 个 磁道 的 

再 次 到 达 轴 C 时 ,指令 已 告 完 成 。 以 一 种 类 似 的 

方式 ,我 们 可 以 确保 总 共 的 等 待 + 传 送 时 间 决 不 

超过 转 一 圈 的 时 间 , 而 不 管 磁盘 的 初始 位 置 如 

何 。 通 过 这 个 方案 减少 了 平均 等 竺 延迟 时 间 ,如 C 

果 我 们 正在 读 或 写 一 个 磁道 的 指定 部 分 过 时 图 90 


A 
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(0< zx 过 1) ,可 由 延迟 半 图 减少 到 延迟 (1 xz?) 图。 当 正在 读 或 写 整个 一 个 磁道 
(z=1) 时 ,这 个 技术 消除 了 所 有 等 待 时 间 。 


磁 鼓 :无 寻 道 的 情况 ” 某 些 外 部 存储 设备 ,传统 上 称 为 磁 鼓 存 储 ,由 于 对 每 个 磁 
道 和 都 有 一 个 读 / 写 头 , 从 而 消除 了 寻 道 时 间 。 如 果 图 90 的 技术 被 应 用 到 这 样 的 设备 
上 , 则 寻 起 时 间 和 等 待 时 间 都 将 减少 为 0, 其 中 假定 我 们 总 是 一 次 读 或 写 一 个 磁道 ; 
这 时 传输 时 间 是 惟一 的 限制 因素 ,这 是 一 种 理想 情况 。 

让 我 们 再 次 考虑 $.4.6 小 节 的 应 用 实例 ,用 有 100 000 个 字符 的 内 存 对 100 000 
个 每 个 有 100 个 字符 的 记录 排序 。 有 待 排 序 的 数据 总 量 填 满 了 一 个 MIXTEC 盘 的 一 
半 。 通 常 不 可 能 同时 在 单个 磁盘 设备 上 进行 读 和 写 ;我 们 将 假定 有 两 个 磁盘 可 以 利 
用 ,使 得 读 和 写 可 以 彼此 重要 。 事 实 上 ,暂时 我 们 将 假定 “磁盘 ”实际 上 是 磁 鼓 , 它 包 
含 4000 个 每 个 含 5000 个 字符 的 磁道 ,而且 不 需要 寻 道 时 间 。 

应 使 用 什么 排序 算法 呢 ? 合并 的 方法 是 一 个 相当 自然 的 选择 ,内 部 排序 的 其 它 
方法 不 见得 更 利于 在 磁盘 上 实现 ,5.2.5 小 节 的 基数 技术 除外 。 但 是 5.4.7 小 节 的 
考虑 表明 ,对 于 一 般 应 用 ,基数 排序 通常 比 合 并 要 低劣 ,因为 该 小 节 的 对 偶 性 定理 既 
可 应 用 于 磁带 ,也 可 应 用 于 磁盘 。 然 而 ,基数 排序 在 键 码 为 一 致 分 布 的 ,以 及 在 可 以 
并 行 地 使 用 磁盘 时 确实 有 很 大 的 优点 ,因为 通过 键 码 的 最 高 有 效 位 的 初始 分 布 ,将 
把 工作 分 成 为 不 需要 进行 进一步 通信 的 一 些 独立 的 子 程序 (例如 ,参见 R.C. Agarw- 
al ,SIGMOD. Record 25 ,2(June1996) ,240 一 246) 。 

在 以 下 的 讨论 中 ,我 们 将 专注 于 合并 排序 。 

为 了 开始 对 上 述 问题 的 一 个 合并 排序 ,我 们 可 以 使 用 替代 选择 ,用 两 个 5000 个 
字符 的 输入 缓冲 区 和 两 个 5000 字符 的 输出 缓冲 区 。 事 实 上 ,如 果 用 从 选择 树 来 的 
记录 代替 当前 输入 缓冲 区 中 的 记录 , 则 有 可 能 把 上 述 缓冲 区 减少 为 3 个 5000 字符 
的 缓冲 区 。 这 把 85000 个 字符 (850 个 记录 ) 送 到 一 株 选 择 树 ,所 以 对 于 我 们 所 例 举 
数据 的 一 次 扫描 将 形成 大 约 60 个 初始 路 段 ( 见 等 式 5.4.6-(3))。 如 果 假 定 内 部 处 
理 时 间 足 够 快 ,能 赴 上 输入 输出 的 速度 , 即 每 500ws 一 个 记录 移动 到 输出 缓冲 区 , 则 
这 次 扫描 仅仅 花费 大 约 50s 的 时 间 。 如 果 有 竺 排序 的 输入 出 现在 一 条 MIXT 磁带 
上 ,而 不 是 出 现在 一 个 磁 鼓 上 , 则 这 个 扫描 将 慢 一 些 ,这 是 因 磁 带 的 速度 所 致 。 

对 于 两 个 磁 襄 和 全 磁道 的 读 / 写 ,不 难看 到 ,如 果 我 们 令 P 尽 可 能 地 大 , 则 P 路 合 
并 的 总 传输 时 间 即 为 极 小 。 可 惜 ,我 们 不 能 对 所 有 初始 路 段 简单 地 做 一 个 60 路 的 合 
并 ,因为 在 内 存 中 没有 60 个 缓冲 区 空间 ( 少 于 5000 个 字符 的 一 个 缓冲 区 将 导致 不 必 
要 的 等 每 时 间 )。 如 果 进 行 已 路 合并 ,把 所 有 数据 从 一 个 磁 鼓 传输 到 另 一 个 磁 鼓 ,使 得 
读 和 写 重 悉 , 则 合并 扫描 的 次 数 为 [logp601, 所 以 如 果 8 志 P 志 59, 我 们 就 可 以 在 两 次 扫 
描 中 来 完成 这 项 工作 。 最 小 的 这 样 的 已 减少 了 内 部 计算 的 量 , 所 以 我 们 选择 P=8; 如 
末 已 经 形成 65 个 初始 路 段 , 则 将 取 P=9。 如 果 已 经 形成 了 82 个 或 更 多 的 初始 路 段 ， 
则 将 取 P=10, 但 由 于 仅仅 有 18 个 输入 缓冲 区 和 2 个 输出 缓冲 区 的 空间 ,所 以 在 合并 
期 间 将 有 挂 起 的 可 能 性 ( 见 算法 5.4.6F) ;在 这 样 一 种 情况 下 ,可 能 更 宜 于 对 一 小 部 分 
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数据 做 部 分 的 扫描 ,并 且 把 初始 路 段 的 数目 减 到 81 或 更 少 。 

在 我 们 的 假定 之 下 ,两 个 合并 扫描 都 将 花费 大 约 50s, 所 以 在 这 种 理想 的 情况 下 
完成 整个 的 排序 仅 用 2.Smin( 加 上 用 于 短 记 操作 \、 初 始 化 等 等 的 几 秒 钟 )。 这 比 
5.4.6 小 节 中 所 考虑 的 最 好 的 6 磁带 排序 快 6 倍 ; 速 度 提 高 的 原因 是 :改进 了 外 部 / 
内 部 传输 速度 ( 快 3.5 倍 ) ,更 高 阶 的 合并 (我 们 不 能 做 8 路 磁带 合并 ,除非 有 9 条 或 
更 多 的 磁带 ) ,以 及 输出 仍 保持 在 磁盘 上 (最 后 的 重 绕 等 不 必要 )。 如 果 初 始 的 输入 
和 排序 的 输出 要 求 在 MIXT 磁带 上 ,而 磁 鼓 仅 用 作 合并 , 则 相应 的 排序 时 间 将 大 约 为 
8. 271irnis 

如 果 仅 仅 有 一 个 磁 鼓 可 利用 而 不 是 两 个 , 则 输入 输出 时 间 将 花费 两 僧 之 长 , 因 
为 读 和 写 必 须 分 开 来 完成 (事实 上 ,输入 输出 操作 将 花费 3 倍 时 间 ,因为 我 们 将 冲 挥 
初始 的 输入 数据 ;在 这 样 一 种 情况 下 ,如 果 硬 件 不 提供 对 已 写 信息 的 自动 校 验 , 则 宜 
于 在 每 一 个 写 操作 之 后 紧 接 着 一 个 “向 后 读 校 验 ” 操 作 ,免得 某 些 输入 数据 丢失 以 致 
无 法 检索 )。 但 由 于 我 们 可 以 使 用 部 分 扫描 的 方法 ,此 方法 处 理 一 部 分 数据 记录 的 
次 数 多 于 另 一 部 分 ,因此 就 可 以 挽回 一 些 时 间 上 的 损失 。 两 个 磁 鼓 的 情况 需要 偶数 
次 或 奇数 次 地 处 理 所 有 数据 ,但 一 个 磁 鼓 的 情况 可 以 使 用 更 一 般 的 合并 型 式 。 

我 们 在 5.4.4 小 节 就 注意 到 ,合并 型 式 可 以 通过 树 来 表示 ,而且 对 应 于 一 个 合 
并 型 式 的 传输 时 间 同 其 树 的 外 部 路 径 长 度 成 比例 。 只 有 某 些 树 (T-lifo 或 者 强 王后 
fo) 可 以 用 作 有 效 的 磁带 合并 型 式 , 因 为 某 些 路 段 在 进行 合并 过 程 中 会 掩蔽 在 一 条 
磁带 的 中 间 。 但 是 在 磁盘 或 磁 鼓 上 ,所 有 树 都 定义 了 可 用 的 合并 型 式 , 只 要 它们 内 
部 节点 的 层次 对 于 可 利用 的 内 部 存储 的 大 小 来 说 ,不 是 太 大 即 可 。 

因此 ,我 们 可 以 通过 选择 一 株 具 有 极 小 外 部 路 径 长 度 的 树 来 使 传输 时 间 极 小 
化 ,诸如 一 株 完 备 的 已 叉 树 ,这 里 P 尽 可 能 地 大 。 由 等 式 5.4.4-(9) ,如 条 这 样 一 株 
树 有 S 个 外 部 节点 ( 叶 ), 则 它 的 外 部 路 径 长 度 等 于 

a (R= SSNPS gq = | logpS | (1) 

设计 一 个 按照 完备 的 PP 叉 树 型 式 来 合并 的 算法 ,是 特别 容易 的 。 例 如 ,图 91 所 
示 为 P=3,S=6 的 情况 。 首 先 , 如果 必 要 的 话 , 我 们 加 上 “虚拟 路 段 ”, 使 得 S 二 1 
(moduloP - 1) ;然后 ,按照 “-fifo” 的 规则 来 组 合 路 段 , 在 每 个 阶段 ,把 队列 前 了 个 
“最 老 的 ”的 路 段 合 并 成 为 一 个 路 段 , 并 把 该 路 段 放 在 后 边 。 

如 果 所 有 的 初始 路 段 都 有 相同 的 长 度 , 则 完备 的 P 又 树 给 出 一 个 最 优 的 型 式 ， 
但 是 如 果 某 些 路 段 比 其 余 的 长 , 则 我 们 常常 可 以 做 得 更 好 。 这 种 一 般 情况 的 最 优 型 





图 91 具有 6 片 叶 的 完备 三 叉 树 及 其 相应 的 合并 型 式 
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式 , 可 以 坚 无 困难 地 使 用 Huffman 方法 来 加 以 构造 (习题 2.3.4.5-10), 它 可 以 用 合 
并 的 语言 叙述 如 下 :首先 加 上 (1- S)mod(P -1) 个 长 度 为 0 的 虚拟 路 段 ,然后 反 
复 地 把 已 个 最 短 的 现存 路 段 合 并 在 一 起 ,直到 剩 下 一 个 路 段 为 止 。” 当 所 有 路 段 都 
有 相同 长 度 时 ,这 个 方法 就 归结 为 前 面 所 述 的 -fifo 规则 。 

在 100 000 个 记录 的 例子 中 ,我 们 可 以 作 九 路 合并 ,因为 内 存 中 可 以 放下 18 个 
输入 缓冲 区 和 两 个 输出 缓冲 区 ,而 且 算 法 5.4.6F 将 重合 所 有 的 计算 时 间 。 如 果 所 


有 初始 路 段 都 有 相同 的 长 度 , 则 完备 的 具有 60 片 叶子 的 9 叉 树 对 应 于 具有 1 9 直 


扫描 的 一 个 合并 型 式 。 因 此 , 若 在 每 次 写 之 后 使 用 向 后 读 校 验 , 则 使 用 一 个 磁 鼓 的 
总 排序 时 间 , 约 等 于 7.4min。 更 高 的 己 值 可 以 稍稍 减少 这 个 运行 时 间 ; 但 当 缓冲 区 
变 得 太 满 或 太空 时 ,由 于 可 能 出 现 “ 读 挂 起 ” ,因此 情况 就 变 得 复杂 了 。 


寻 道 时 间 的 影响 “以 上 的 讨论 表明 ,对 于 磁 鼓 来 构造 "最 优 * 合 并 型 式 是 比较 容 
易 的 ,因为 寻 道 时 间 和 等 待 时 间 实 际 上 都 不 存在 。 但 当 使 用 有 小 的 缓冲 的 磁盘 时 ， 
通常 花费 在 寻找 信息 的 时 间 比 起 读 信息 的 时 间 要 长 ,所 以 寻 道 时 间 对 于 排序 策略 有 
相当 大 的 影响 。 减 少 合并 的 阶 数 ,就 可 能 使 用 更 大 的 缓冲 区 ,所 以 就 需要 较 少 的 
寻 道 时 间 ; 这 通常 能 弥补 较 小 的 值 所 引起 的 额外 的 传输 时 间 。 

寻 道 时 间 同 存 取 辟 通过 的 距离 有 关 , 因 此 我 们 可 以 尝试 把 事情 安排 成 使 得 这 个 
距离 成 为 极 小 。 例 如 ,首先 在 柱 面 内 对 记录 排序 可 能 是 明智 的 。 但 是 大 型 的 合并 往 
往 要 求 在 柱 面 之 间作 大 量 的 跳跃 (参见 习题 2) 。 其 次 ,现代 操作 系统 的 多 程序 设计 
的 能 力 意味 着 ,用 户 正 失去 对 磁盘 存 取 蔷 的 控制 ;因此 ,我 们 通常 认为 ,假定 每 一 个 
磁盘 命令 都 包含 一 个 “随机 ”的 寻 道 是 合理 的 。 

我 们 的 目标 是 发 现 一 个 合并 型 
式 , 它 在 寻 道 时 间 和 传输 时 间 之 间 实 
现 最 好 的 平衡 ;为 此 目的 ,需要 某 种 
方法 ,相对 于 一 个 特定 的 硬件 配置 来 00) 
估计 任何 特定 树 的 好 坏 。 例 如 ,考虑 
图 92 中 的 树 ;我 们 要 评估 为 进行 相应 [| 
的 合并 它 将 花费 多 长 时 间 ,以 便 能 把 





这 株 树 同 其 它 树 作 比 较 。 

在 下 面 的 讨论 中 ,我 们 将 对 磁盘 
合并 作 某 些 简单 的 假定 ,以 便 说 明 某 图 92 ”外 部 路 径 长 度 为 16 
些 一 般 的 思想 。 假 定 :(i) 为 了 读 或 者 而 又 数 路 径 长 度 为 52 的 一 株 树 


写 2 个 字符 要 花费 72.5 + 0.,005nms; 

(让 ) 内 存 中 有 100 000 个 字符 的 位 置 可 用 作 工 作 存储 ;(iii) 为 把 每 个 字符 从 输入 传输 到 
输出 ,需要 平均 0.004ms 的 计算 时 间 ;(iv) 在 读 、 写 或 计算 之 间 没 有 重要 ;(v) 用 作 输 出 
的 缓冲 区 大 小 不 必 和 下 次 扫描 时 用 作 读 数据 的 缓冲 区 大 小 一 样 。 在 这 些 简单 假定 之 
下 对 排序 问题 的 分 析 ,将 为 我 们 转向 更 复杂 的 情况 提供 某 些 启示 。 
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如 果 进 行 一 个 P 路 合并 , 则 我 们 可 以 把 内 部 工作 存储 分 成 为 P+1 个 缓冲 区 
域 ,P 个 作为 输入 和 1 个 作为 输出 ,而 每 个 缓冲 区 都 有 B= 100 000/(P+1) 个 字符 。 
假定 正在 合并 的 文件 总 共 包 含 工 个 字符 ;于 是 我 们 将 做 近似 于 L/B 个 输出 操作 和 
大 约 相同 数量 的 输入 操作 ,所 以 在 我 们 的 假定 之 下 总 共 的 合并 时 间 将 近似 于 


2 72.5 呈 + 0.005L ]+ 0.004L = (0.00145P + 0.01545)L ms (2) 


换言之 , 个 字符 的 P 路 合并 将 花费 大 约 (aP + 8)L 个 单位 时 间 , 其 中 a,B 为 
依赖 于 寻 道 时 间 、 等 待 时 间 、 计 算 时 间 以 及 内 存 大 小 的 常数 。 这 个 公式 导致 了 一 个 
有 趣 的 、 构 造 一 个 好 的 磁盘 合并 型 式 的 方法 。 例 如 ,考虑 图 92, 并 假定 所 有 的 初始 
路 段 (以 正方 形 “ 叶 ”节点 表示 ) 长 度 都 为 Lo, 则 在 节点 9 和 10 处 的 合并 各 需 花 费 
(2a + 8)(2Lo) 个 单位 时 间 , 在 节点 11 处 的 合并 花费 (3a + B)(4Lo) 个 ,在 右 点 12 
的 最 后 合并 花费 (4a + 8)(8Lo) 个 。 因 此 ,总 共 的 合并 时 间 为 (52a + 168) 工 0 单位 。 
这 里 的 系数 “16” 是 我 们 所 熟知 的 , 它 只 不 过 是 该 树 的 外 部 路 径 长 度 。 然 而 ,a 的 系 
数 “52” 是 一 个 新 的 概念 , 它 可 以 称 为 树 的 又 数 路 径 长 度 (degree path length); 它 是 对 
于 所 有 叶 节 点 取 的 从 叶 到 根 的 通路 上 内 部 节点 又 数 的 和 。 例 如 ,在 图 92 中 ,又 数 路 
径 长 度 为 

(2+4)+(2+4)+(3+4)+(2+3+4)+(2+3+4) 
+ (3+4)+(4)+ (4)= 52 


如 果 7 是 任意 树 , 则 令 D( 久 ,EE( 肖 分 别 表示 它 的 又 数 路 径 长 度 和 外 部 路 径 长 
度 。 我 们 的 分 析 可 以 综述 如 下 : 


定理 H 如 天 对 于 L 个 字符 进行 一 个 P 吕 合 并 所 需要 的 肝 间 是 (aP+B)L, 且 加 
时 有 S 个 筝 长 路 段 育 符合 并, 则 爱好 的 合并 型 式 对 应 于 在 育 S 个 叶 的 所 月 树 中 ,使 
aD(T) 二 BE( 了 站 为 起 小 的 一 检 树 了 人。 

此 定理 隐 含 于 一 篇 未 发 表 的 论文 中 ,George U.Hubbard 在 1963 年 的 ACM Na- 
tional Conference 上 介绍 过 它 。 

令 a 和 8B 是 固定 的 常数 ;如 果 一 株 树 对 于 具有 相同 叶 数 的 所 有 树 了 有 极 小 的 
aD( 儿 + BE (97) 值 , 则 我 们 说 这 株 树 是 最 优 的 。 不 难看 出 ,一 株 最 优 树 的 所 有 子 树 是 
最 优 的 。 因 此 我 们 可 以 通过 把 具有 <n 片 叶 的 最 优 树 合 在 一 起 ,构造 出 具有 n 片 叶 
的 最 优 树 。 


定理 KK 对 于 1 达 m 世 nn ,通过 规则 


A,(n) = in (Ai(k)+ A,_i(n—-k)) 对 于 2 秋思 委 7 (4 ) 
Ai(n) = ,min (amn + Bn + A,,(n)) 对 于 nn 宇 2 (9 ) 


定义 数 A,,(n) 的 序列 。 现在 所 有 有 具有 n 片 叶 的 树 了 中 ,Ai( 7) 是 aD(I)+ BE(9) 的 
极 小 值 。 
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证 明 等 式 (4) 蕴 涵 着 ,A,,(n) 是 对 于 所 有 使 得 ni + …+ n= nn 的 正 整 数 n,， 
,nm ;和 式 A1(n1) 二 … 十 Ai(n) 的 极 小 值 。 对 n 用 归纳 法 即 得 结果 。 | 

递归 关系 (3),(4),(5) 也 可 用 来 构造 最 优 树 本 身 : 令 &,(n) 是 在 A,, (nn) 的 定义 
中 使 极 小 值 出 现 的 一 个 值 , 则 我 们 可 以 通过 在 根 处 加 入 m= ki1(n) 个 子 树 ,构造 具 
有 n 片 叶子 的 一 株 最 优 树 ;这 些 子 树 又 是 分 别 具 有 &,, (72) ,RE (7 一 有 (7 ))， 
k(n 一 k(n)—k,_i(n-k,(n))),… 片 叶子 的 最 优 树 。 

例如 , 表 1 说 明了 当 aa=8B=1 时 的 这 个 构造 。 在 该 表 的 右边 是 对 应 的 最 优 树 的 
简单 说 明 。 例 如 , 当 n=22 时 ,条 目 “4:9:9” 意 味 着 ,具有 22 片 叶子 的 最 优 树 %, ,可 
以 通过 把 有,% 和 % 组 合 在 一 起 来 得 到 ( 见 图 93)。 最 优 树 不 是 惟一 的 ;例如 ,5:8:9 
同 4:9:9 一 样 地 好 。 

对 (2) 的 推导 表明 , 当 使 用 P+1 个 相等 的 缓冲 区 域 时 ,关系 式 a 三 B 总 成 立 。 
当 要 求 寻 道 时 间 极 小 化 ,而 不 考虑 传输 时 间 时 , 即 出 现 表 1 和 图 93 中 的 极限 情况 a 
= po 

© 


图 93 ” 当 在 定理 H 中 ac=8 时 ,合并 22 个 相等 长 度 的 初始 路 段 的 一 种 
最 优 方式 。 在 与 正文 中 的 等 式 (2) 同 样 的 假定 之 下 ,这 个 型 式 使 寻 道 时 间 极 小 化 


表 1 当 a=B=1 时 最 优 树 特征 A,,(n),k,(n) 




















nn n 
1 0,0 一 1 
2 6,2 0,1 1:1 2 
3 12,3 6,1 0,1 1:1:1 3 
4 20,4 12,1 6,1 0,1 1:1:1:1 4 
3 30,5 18,2 12,1 6,1 0,1 1:1:1:1:1 5 
6 42,2 24,3 18,1 12,1 6,1 0,1 3:3 6 
7 52,3 32,3 24,1 18,1 12,1 6,1 0,1 1:3:3 7 
8 62,3 40,4 30,2 24,1 18,1 12,1 6,1 0,1 2:3:3 8 
9 72,3 50,4 36,3 30,1 24,1 18,1 12,1 6,1 0,1 3:3:3 9 
10 84,3 60,5 44,3 36,1 30,1 24,1 18,1 12,1 6,1 0,1 3:3:4 10 
11 96,3 72,4 52,3 42,2 36,1 30,1 24,1 18,1 12,1 6,1 0,1 3:4:4 11 

108,3 82,4 60,4 48,3 42,1 36,1 30,1 24,1 18,1! 12,1 6,1 0,1 4:4:4 12 
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121,4 92,4 70,4 56,3 48,1 42,1 36,1 30,1 12,1 6,1 3:3:3:4 
134,4 102,3 80,4 64,3 54,2 48,1 42,1 36,1 1l8,1 12,1 3:3:4:4 
147,4 114,3 90,4 72,3 60,3 54,1 48,1 42,1 24,1 18,1 3:4:4:4 
160,4 124,7 102,4 80,4 68,3 60,1 54,1] 48,1 30,1 24,1 4:4:4:4 
173,4 134,8 112,4 90,4 76,3 66,2 60,1 54,1 36,1 30,1 4:4:4:5 


190,4 144.9 122,4 100,4 84,3 72,3 66,1 60,1 42,1 36,1 4:4:5:5 
205,4 156.9 132,3 110,3 92,3 80,3 72,1 66,1 48,1 42,1 4:5:5:5 
220 ,4 168,9 144,4 120,5 100,4 88,3 78,2 72,1 34,1 48,1 SS:5:5:5 
236,5 180,9 154,4 132,4 110,4 96,3 84,3 78,1 60,1 S54,1 4:4:4:4:5 
252,3192,10 164,4 142,4 120,4 104,3 92,3 84,1 66,1] 60,1 4:9:9 
266,3204,11 174,3 152,4 130,4 112,3 100,3 90,2 72,1 66,1 35:9:9 
282,3216,12 186,3 162,5 140,4 120,4 108,3 96,3 78,1 72,1 $5:9:10 
296,3229,12 196,7 174,4 130,3 130,4 116,3 104,3 84,1 78,1 7:9:9 


回 到 最 初 的 应 用 ,我 们 尚未 考虑 如 何 首 先 得 到 初始 的 路 段 ; 如 果 没 有 读 / 写 /计算 
的 重 肆 , 则 替代 选择 就 失去 了 它 的 某 些 优点 。 也 许 我 们 应 该 填 满 整个 内 存 ,然后 排 
序 并 输出 结果 ;每 一 个 这 样 的 输入 和 输出 操作 都 只 需要 一 次 寻 道 。 或 者 也 许 拿 出 比 
如 说 内 存 的 20% 作 为 一 个 综合 的 输入 /输出 缓冲 区 ,并 进行 替代 选择 更 好 。 这 要 求 
5 倍 的 寻 道 时 间 ( 一 个 额外 的 60s 左右 时 间 !1) ,但 它 使 初始 路 段 的 数目 从 100 减少 至 
64; 如 果 输 入 文件 原来 就 是 相当 有 序 的 , 则 减少 就 更 为 显著 。 

如 果 我 们 决定 不 使 用 替代 选择 , 则 对 于 S= 100,a =0.0014$,8=0.01545 的 最 
优 树 [ 参 见 (2)] 是 相当 平凡 的 : 它 只 不 过 是 对 数据 在 两 次 扫描 中 完成 的 一 个 10 路 合 
并 。 如 果 人 允许 对 内 部 排序 花费 30s( 比 如 说 ,100 次 快速 排序 ) , 则 初始 分 配 扫描 大 约 
花费 2.5min ,每 次 合并 扫描 将 近 花 费 Smin ,总 共 是 12.4min。 如 果 我 们 决定 使 用 蔡 
代 选 择 , 则 对 于 S=64 的 最 优 树 也 同样 是 平凡 的 (两 个 8 路 合并 扫描 ); 初 始 分 布 扫 
描 大 约 花费 3.Smin, 每 次 合并 扫描 大 约 花 费 4.Smin, 估 计 总 共 的 时 间 为 12.6min: 
别 忘 了 ,这 两 个 方法 实际 上 都 放弃 了 所 有 的 读 / 写 / 计 算 的 重 雪 ,为 的 是 有 更 大 的 缓冲 
区 ,并 减少 寻 道 时 间 。 这 些 估计 的 时 间 均 未 包括 为 向 后 读 检 验 操 作 所 可 能 需要 的 时 
间 。 

实际 上 ,最 后 的 合并 扫描 与 其 它 几 次 扫描 往往 十 分 不 同 ;例如 ,输出 常常 被 展开 
和 /或 写 到 磁带 上 。 在 这 种 情况 下 , 树 型 式 应 该 利用 在 根 处 的 另 一 种 最 优 性 准则 来 
加 以 选择 。 


“ 对 最 优 树 的 进一步 考察 ”尽管 实际 情况 参数 通常 满足 0 人 a8B, 但 是 考察 定 
理 了 及 和 KK 中 的 极端 情况 6=0 是 有 趣 的 。 具 有 n 片 叶 子 的 树 什 么 样 的 有 最 小 的 又 
数 路 径 长 度 ? 奇怪 的 是 ,结果 证 明 三 路 合并 是 最 好 的 。 
定理 L 一 可 具有 nn 片 叶子 的 本 ,其 义 数 路 径 长 度 决 不 小 于 
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— 3° “3 Sn 
f(n) - {am 2 3?) ”如 果 2.3 n 3 (6) 
3gn +4(7 一 3?) 如 果 3”* 之 n 达 2.3 
由 下 列 规则 
Pr 一 Li 五 = 7 一 人 
了 也 7 二 1 | 中 2| (7) 
[| | 3 | 村 





定义 的 三 义 树 5 有 极 小 又 数 路 径 长 度 。 
证 明 重要 的 是 要 注意 f(n) 是 一 个 串 函 数 , 即 
fl(n+1)- f/f(n) 之 ff(n)- fl(n-1) 对 于 所 有 nn 宇 2 (8) 
这 个 性 质 的 正确 性 由 下 列 引 理 得 出 ,而 这 个 引 理 是 习题 2.3.4.5-17 结果 的 对 偶 。 
引 理 C. 在 正 整 数 上 定义 的 一 个 苑 数 g(n) 满 足 
min (g(k) + g(n— k)) = g([n/2|)+ g([n/21),，n 宇 2 (9) 
当 且 仅 当 它 是 凸 的 。 

证 明 如 果 对 于 某 个 n 宇 2,g(n+1)-g(n)<g(n)-g(n 一 1), 我 们 有 g(n 
+1)+tg(n 一 1)<g(n)+g(n), 同 (9) 相 冲突 。 反 之 ,如 果 对 于 g,(8) 成 立 ,而 且 如 
果 1 过 <n 一 ,由 凸 性 ,我 们 有 g(k+1)+g(n-k-1) 人 ge(k)tg(n-k)。 | 

引 理 C 证 明 的 后 面部 分 可 推广 到 任何 m% 宇 2 以 证 明 每 当 g 为 凸 时 . 

min (g(n1) 十 ，…* 十 g(nm)) 二 


g([nfmj)+g((n+t+i)/m))+… +g( (n+ m— 1)/mj) (10) 
今 
fun) = finfml)+ fn+t1i)/ml)+ + f(ln+t+m—1)/m|) (11) 
通过 证 明 fy(n)+3n= 了 (n) 以 及 对 于 所 有 mm 宇 2,f(n)+ mn 之 f(n), 便 完成 了 
定理 工 的 证 明 ( 见 习题 11)。 | 
如 果 最 优 树 总 可 以 像 在 定理 世 中 那样 利落 地 表征 , 那 将 是 非常 好 的 。 但 在 表 1 
中 对 于 au=8, 我 们 已 经 看 到 的 结果 表明 , 男 数 Ai(n) 并 不 总 是 凸 的 。 事实 上 , 表 1 足 
以 否定 关于 最 优 树 的 大 多 数 简单 的 猜测 ! 但 是 ,在 一 般 情况 下 我 们 可 以 部 分 地 拯救 
定理 L;M. Schlumberger 和 J.Vuillemin 已 经 证 明 , 可 以 避免 合并 大 的 阶 。 


定理 M. 如 定理 厅 中 那样 给 定 a 和 p, 存 在 一 原 最 优 树 ,其 中 每 个 节 点 的 又 数 


至 多 为 
da,8) = [min(k+ [+ 去 ](L+ 二 让 | (12) 
证 明 今 n1,…,n, 是 使 得 ni 二 …++ n, =n,A(n)+t+:…+A(n,)= A,(n) 
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的 正 整数 , 且 2i 委 … 委 az 。 另 外 假定 mw 和 宇 d(a,B)+1。 令 是 极 小 化 (12) 的 值 ;我 
们 将 证 明 
on(m—k)+Bnt+ A ON) 委 an 二 Ba + A,(n) (13) 
因此 (4) 中 的 极 小 值 对 于 某 个 mm 三 4d (a,B) 总 是 可 达到 的 。 
由 定义 ,由 于 mw 之 & +2, 我 们 必定 有 
A 41(n) SANnit +t nn) + A(np) + + Ai(n;,) < 
a(nit + nr)(kR+1)+ Bat t+ nn) TAI 二 十 AI) = 
(a(k+1)+ B)(n + + ner1) 十 A,(n) 三 
(a(k+1)+ Bl(R+1)n/im + A,(n) 
因此 现在 容易 得 出 (13)( 仔 细 观 察 这 个 证 明 可 发 现 ,由 于 某 些 最 优 树 一 定 有 了 叉 数 为 
d(a,B) 的 市 点 ,所 以 (12) 可 能 是 最 好 的 ;参见 习题 13)。 | 
对 于 1 过 mm 三 n 志 NN, 定理 KK 的 构造 需要 O(N2) 个 存储 单元 和 O(N“logNN) 个 
步骤 来 计算 A;, (n)。 定 理 M 表明 仅仅 需要 O(N ) 个 单元 和 O(N?) 个 步 又 。 
Schlumberger 和 Vuillemin 发 现 了 最 优 树 的 一 些 非常 有趣 的 性 质 [Acta Informatica 3 
(1973) ,25 一 36j。 其 次 ,如 习题 9 所 示 ,可 以 计算 出 Ai(n) 的 渐 近 值 。 


“分 配 缓冲 区 的 另 一 种 方式 David E. Ferguson[CACM 14(1971) ,476 一 478 
指出 ,如 果 我 们 不 把 所 有 缓冲 区 都 做 成 相同 大 小 , 则 寻 道 时 间 即 可 减少 。 同 样 的 思 
想 大 约 同 一 时 间 也 出 现在 其 他 人 的 文章 中 [S.J. Waters,Comp.J. 14(1971) ,109 一 
112;Ewing S. Walker, Software Age 4(Auguest-September,1970),16~17]。 

假设 我 们 正在 对 具有 相等 长 度 Lo 的 路 段 进 行 四 路 合并 ,日 内 存 可 容纳 M 个 字 
符 。 如 果 把 内 存 划分 成 相同 的 缓冲 区 大 小 B = M1/5, 则 对 于 每 个 输入 文件 需要 大 约 
Lo/B 次 寻 道 ,对 于 输出 需要 4L0/B 次 寻 道 ,加 起 来 为 8Lo/B=40Lo/M 次 寻 道 。 但 
如 果 我 们 用 4 个 大 小 为 M/6 的 输入 缓冲 区 和 1 个 大 小 为 M/3 的 输出 缓冲 区 , 则 只 
需要 大 约 4xX (6Lo/M)+4Xx(3Lo/M)=36Lo/M 次 寻 道 ! 在 两 种 情况 下 传输 时 间 
是 相同 的 ,所 以 由 这 个 改动 ,我们 并 不 受 任何 损失 。 

一 般 地 说 ,假设 要 把 长 度 为 Li,…,L, 的 排序 文件 合并 成 为 长 度 为 L,:1=L1+ 
… 十 Lp 的 一 个 排序 文件 ,而 且 假 定 一 个 大 小 为 B; 的 绥 冲 区 被 用 于 第 个 文件 。 于 
是 有 





Bi,+…+Bhp+Bp= M (14) 
其 中 M 是 可 利用 的 内 存 的 总 容量 , 寻 道 的 次 数 将 近似 为 
Li Lp Lpii 
BB! !B,! Be (15) 


现在 让 我 们 在 条 件 (14) 的 约束 下 尝试 使 这 个 量 极 小 化 ,为 方便 起 见 假定 Bi 不 必 为 
整数 。 如 果 对 B; 增加 5 而 对 Bi 减少 相同 的 小 量 , 则 寻 道 次 数 的 改变 为 

; LL LL L, L, L; 
B+ B, Be-8 B, \B(B: -5) B,(B, + $8) ? 
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所 以 如 果 L;/B? 关 LL/B% ,这 个 分 配 就 能 改进 。 因 此 , 仅 当 





了 L Lop, 
FE 一 ,二 承 一 Bo (16) 
时 我 们 得 到 极 小 的 寻 道 次 数 。 由 于 存在 一 个 极 小 ,因此 当 
Be = VILMICV LI+…+VLp)，1 委 上 入 P+1l (17) 


时 它 必定 出 现 ,因为 这 些 是 同时 满足 (14) 和 (16) 的 B1,…,Bp4+1 仅 有 的 值 。 把 (17) 
值 代入 (15) ,就 给 出 寻 道 总 次 数 的 相当 简单 的 公式 


(VILI+…+wVLpi)M (18) 
这 可 以 和 数 (P+1)(Li+… 十 Lp41)/M 相 比 较 , 此 数 为 在 所 有 缓冲 区 的 长 度 相等 
时 得 到 的 。 由 习题 1.2.3-31 ,改进 为 
2 (VL-vVLi)/IM 


I<j<k<P+l 


可 惜 的 是 ,公式 (18) 并 不 像 定理 K 中 那样 ,易于 利用 公式 (18) 确 定 最 优 合 并 型 式 ( 参 
见习 题 14)。 


链接 的 使 用 M.A.Goetz [CACM 6(1963) ,24$ 一 248] 提出 了 一 个 通过 把 个 
别 的 磁道 链接 在 一 起 ,来 避免 输出 时 的 寻 道 时 间 的 有 趣 方法 。 他 的 思想 要 求 一 组 相 
当 特 别 的 磁盘 存储 管理 程序 ,而 且 除 了 排序 之 外 , 它 还 适用 于 许多 问题 。 因 此 对 于 
一 般 的 应 用 来 说 , 它 是 一 个 非常 有 价值 的 技术 。 

它 的 概念 是 简单 的 :代替 在 磁盘 的 柱 面 内 顺序 地 分 配 磁道 ,我 们 把 它们 链接 在 
一 起 并 且 建 立 一 个 可 用 空间 的 表 , 每 个 柱 面 一 个 。 当 要 输出 一 个 磁道 的 信息 时 ,我 
们 把 它 写 到 当前 的 柱 面 上 (无 论 存 取 臂 在 哪里 ) ,除非 该 柱 面 满 了 。 这 样 一 来 , 寻 道 
时 间 就 消失 了 。 

困难 之 处 是 在 磁道 本 身 我 们 不 能 存储 对 下 个 磁道 的 链接 ,因为 所 需 的 信息 在 当 
时 并 不 知道 (如 果 合 适 的 话 ,我 们 可 以 存储 一 个 对 前 一 个 磁道 的 链接 ,而 且 在 下 次 扫 
描 时 向 后 读 文 件 )。 对 于 每 个 文件 的 磁道 的 链接 地 址 表 可 以 分 别 地 维护 ,因为 它 需 
要 比较 少 的 空间 。 可 利用 空间 表 可 以 通过 使 用 二 进位 表 紧 资 地 表示 , 且 以 1000 个 
二 进位 确定 1000 个 磁道 是 否 可 用 。 


修改 的 预报 ”算法 5.4.6F 表明 ,通过 考察 每 个 缓冲 区 中 最 后 的 键 码 ,我们 可 以 
预报 一 个 P 路 合并 的 缓冲 区 哪 一 个 将 首先 变 空 。 因 此 我 们 可 以 同时 读 和 计算 。 该 
算法 使 用 浮动 输入 缓冲 区 ,它们 不 是 专门 提供 给 一 个 特定 的 文件 ;所 以 这 些 缓冲 区 
必须 全 都 具有 相同 大 小 ,而 且 不 能 使 用 上 边 介 绍 的 缓冲 区 分 配 技 术 。 但 是 对 于 一 致 
的 缓冲 区 大 小 的 限制 不 是 大 的 损失 ,因为 现在 的 计算 机 较 之 以 前 有 大 得 多 的 内 部 存 
侍 。 现 在 常常 提出 一 个 自然 的 缓冲 区 大 小 ,例如 ,整个 磁道 的 容量 作为 缓冲 区 。 

因此 想像 把 每 个 均 由 一 数据 块 序列 组 成 的 已 个 路 段 合 并 在 一 起 ,其 中 每 个 块 
(或 许 最 后 一 个 除外 ) , 恰 包 含 B 个 记录 。D.L.Whitlow 和 A.Sasson 提出 了 一 个 叫 
做 SyncSortLU,.S. Patent 4210961 (1980)] 的 有 趣 算法 ,通过 只 需要 大 小 为 B 的 3 个 
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缓冲 区 和 容纳 PB 个 记录 和 PB 个 指针 的 一 个 存储 池 , 它 改进 了 算法 5.4.6F。 与 之 相 
对 照 ,算法 5.4.6F 需要 2P 个 输入 缓冲 区 和 2 个 输出 缓冲 区 ,但 不 需要 指针 缓冲 区 。 

把 3 个 SyncSort 缓冲 区 安排 在 一 个 圆周 上 , 当 合 并 进行 时 ,计算 机 在 当前 的 组 
冲 区 中 处 理 数 据 , 同 时 把 输入 读 到 下 一 个 缓冲 区 中 ,并 从 第 三 个 缓冲 区 来 写 输出 。 
许多 磁盘 设备 允许 在 同一 柱 面 同时 读 和 写 。 其 实 ,磁盘 合并 允许 我 们 写 新 的 路 段 来 
代替 我 们 正在 读 的 路 段 。 否 则 我 们 可 以 使 用 两 个 磁盘 ,一 个 用 作 读 ,一 个 用 作 写 。 
如 果 完 全 的 读 写 同步 是 不 可 能 的 (例如 ,由 于 寻 道 时 间 的 原因 ), 我 们 也 可 以 如 
1.4.4 小 节 中 的 图 26 所 示 ,把 这 个 圆周 扩展 成 4 个 或 者 更 多 的 缓冲 区 。 

SyncSort 通过 读 每 个 路 段 的 第 一 个 块 开 始 , 并 把 这 PB 个 记录 放 进 缓冲 区 池 
中 。 存 储 池 中 的 每 个 记录 被 链接 到 它 所 属 路 段 中 的 它 的 后 继 者 ,但 每 个 块 的 最 后 一 
个 记录 没有 后 继 者 因而 除外 。 在 这 些 最 后 的 记录 中 键 码 最 小 者 确定 将 首先 需要 填 
满 的 路 段 ,所 以 我 们 开始 读 该 路 段 的 第 二 个 块 。 只 要 第 二 个 块 被 读 入 ,合并 即 开 始 ; 
通过 考察 它 最 后 的 键 码 ,我 们 就 能 准确 地 预报 下 一 个 相关 的 块 ,而 且 我 们 可 以 以 相 
同 的 方式 预 取 恰好 的 块 数 来 输入 ,而 且 恰 在 需要 它们 之 前 。 

SyncSort 合并 算法 交换 当前 缓冲 区 中 的 每 个 记录 和 和 输出 的 下 个 记录 , 即 存储 池 
中 有 最 小 键 码 的 记录 。 当 我 们 进行 每 一 个 交换 时 ,也 适当 地 更 新 选择 树 和 后 继 者 链 
接 。 一旦 达到 了 当前 缓冲 区 的 末尾 ,我 们 就 做 好 了 转动 绥 冲 区 圆周 的 准备 :输入 绥 
冲 区 变 成 当前 缓冲 区 , 写 缓冲 区 用 作 输 入 ,而 且 我 们 开始 从 以 前 的 当前 缓冲 区 来 写 。 


使 用 多 个 磁盘 ”磁盘 设备 在 大 小 和 重量 上 曾经 非常 大 ,但 在 20 世纪 80 年 代 
后 ,它们 明显 变 得 越 来 越 小 、 越 来 越 轻 和 越 来 越 廉价 一 一 而 且 比 以 前 任何 时 候 都 能 
容纳 更 多 的 数据 。 因 此 ,人 们 开始 设计 用 于 5 个 、10 个 或 50 个 们 盘 设备 的 、 曾 经 是 
不 可 想像 的 磁盘 从 组 ,甚至 更 大 的 磁盘 群 的 算法 。 

对 于 附加 的 磁盘 要 想 提 高 速度 一 个 容易 的 方法 是 对 大 的 文件 使 用 磁盘 分 片 
(disk striping) 技 术 。 假 设 我 们 有 D 个 磁盘 机 ,分 别 编 号 为 0,1,…,D 一 1, 男 外 一 个 
文件 由 工 个 块 aoa1…ar -1 组 成 。 把 这 个 文件 在 DD 个 磁盘 上 分 片 意味 着 把 块 a; 放 
在 编号 为 / mod 万 的 磁盘 上 ;于 是 矶 盘 0 容纳 CO0OCDC2D , 磁盘 1 容纳 CICD+1C2D+1 
… ,等 等 。 于 是 在 DD 块 群 404a1…ap-1,apap+1“a2Dp-1，"… ;我 们 可 以 同时 实现 DD 个 
读 或 写 ,这些 块 群 称 做 超 块 (superblock)。 每 个 超 块 中 的 独立 的 块 应 在 不 同人 磁盘 上 
的 对 应 柱 面 上 ,使 得 每 个 磁盘 机 的 寻 道 时 间 是 相同 的 。 实 际 上 , 我 们 所 做 的 就 好 像 
我 们 有 一 个 磁盘 , 它 具 有 大 小 为 DB 的 块 和 缓冲 区 ,不 同 的 是 ,输入 和 输出 操作 都 快 
了 DD 倍 。 

当 我 们 进行 两 路 合并 时 ,或 者 一 般 地 ,每 当 我 们 要 匹配 以 键 码 为 序 的 两 个 文件 
中 有 相同 键 码 的 记录 时 ,可 以 利用 对 于 超 块 分 片 的 一 个 很 好 的 改进 。 假 设 第 一 个 文 
件 的 块 aoa1a，… 像 上 面 所 述 被 分 片 到 DD 个 磁盘 上 ,而 另 一 个 文件 的 块 6b05156，… 以 
相反 的 次 序 来 分 片 , 且 块 b; 在 编号 为 (D -1-7) mod DD 的 磁盘 上 。 例 如 D=5, 则 
块 a; 分 别 出 现在 0,1,2,3,4,0,1,… 的 磁盘 上 ,而 对 于 j 宇 0, 块 b; 出 现在 4,3,2,1， 
0,4,3,… 的 磁盘 上 。 令 a; 是 块 a; 最 后 的 键 码 ,而 设 B 是 块 b, 的 最 后 的 键 码 。 通 过 
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考察 a 和 8 ,我 们 可 以 预报 我 们 将 要 读数 据 块 的 序列 。 例 如 ,这 个 序列 可 能 是 

2000210201 Qa3a4b2asa6 QT7Q8030405 060708092010 
当 DD=5 时 ,这 些 块 分 别 出 现 在 磁 盘 

04123 34201 23104 32104 

上 ,而且 如 全 一 次 谈 其 中 的 S$ 个 , 则 我 们 将 逐次 地 从 磁盘 |10,4,1,2,31 ,13,4,2,0， 
11,12,3,1,0,4) ,13,2,1,0,4}… 进 行 输入 。 这 里 绝 不 会 有 冲突 出 现 , 即 绝 不 会 在 同 
一 时 间 里 要 从 同一 个 磁盘 读 两 个 记录 ! 一 般 地 说 ,使 用 D 个 磁盘 ,我 们 可 以 无 冲突 
地 一 次 读 D 个 块 ,因为 对 于 某 个 ,第 一 个 群 将 有 个 块 在 0 到 一 1 的 磁盘 上 ,以 
及 有 DD 一 上 个 块 60…bp_ ;1 在 D1 到 的 磁盘 上 ;因此 我 们 将 以 同样 的 方式 平稳 
地 继续 ,但 磁盘 的 编号 由 有 来 循环 地 移动 。 

这 个 技巧 是 扑克 牌 魔术 师 们 所 熟知 的 ,他 们 把 它 称 做 Gilbreath 原理 ; 它 是 20 
世纪 60 年 代 由 Norman Gilbreath[ 人 参见 Martin Gardner, Mathematical Magic Show 
(New York :Knopf,1977) , Chapter 7; N. Gilbreath ,Genii 52(1989),743~ 744 | 发 明 
的 。 我 们 需要 知道 a 和 8p, 来 判定 下 次 应 读 什 么 块 ,由 于 该 信息 仅 占据 和 4 所 需 
要 的 空间 的 一 个 很 小 比例 ,因此 它 可 以 被 保存 在 独立 的 文件 中 。 这 样 ,为 使 输入 全 
速 进行 ,我 们 只 需要 较 少 的 缓冲 区 即 可 (参见 习题 23)。 

随机 分 厂 ” 当 P 和 DD 很 大 时 ,如 果 我 们 要 用 DD 个 磁盘 来 进行 P 路 合并 ,我 们 
不 可 能 同时 从 D 个 磁盘 读 信息 而 保持 不 冲突 ,除非 我 们 有 大 量 的 缓冲 区 ,因为 当 P 
>2 时 ,我 们 没有 和 Gilbreath 原理 相 类 似 的 东西 。 不 管 我 们 怎样 分 配 一 个 文件 的 块 
到 磁盘 上 去 ,都 将 会 有 这 样 的 机 会 ,就 是 在 我 们 准备 好 使 用 许多 块 之 前 ,可 能 需要 把 
它们 读 入 内 存 中 ,因为 真正 需要 的 这 些 块 可 能 会 碰巧 驻 留 在 相同 的 磁盘 上 。 

例如 ,假设 我 们 要 在 5 个 磁盘 上 进行 八路 合并 ,并 且 假 设 8 个 路 段 的 块 a0aia， 
,bob1602… ,hohihs… 已 经 遂 过 在 ) mod DD 磁盘 上 的 a;,(j+1)mod DD 磁盘 上 
的 b;,…,(j +7)modD 位 盘 上 的 h; 来 分 片 。 我 们 可 能 需要 以 下 列 次 序 来 访问 这 些 块 

aobocodoeo fogohodie1 daezd3ai 广 01581022 户 eai dacihib2g2 a3f3eadsde … 


(19) 
于 是 它们 就 分 别 出 现 在 下 列 磁 盘 上 
012340124001111222222333333334 … (20) 
所 以 我 们 最 好 的 办 法 是 如 下 来 输入 它们 
时 间 1 时 间 2 时 间 3 时 间 4 时 间 5 
aobocodoeo fogohocid1: elez0171G6 dd3g1b02? ?a1a282? (21) 
时 间 6 时 间 7 时 间 8 时 间 9 
?了 方 亡 ca3? 727e3 广 ?7? 77C4e47 ?7?9ds? 


在 我 们 有 能 力 来 考察 块 ds 时 ,我 们 需要 已 经 读 de 以 及 由 “?” 所 标记 的 15 个 未 来 数 

据 的 块 ,这 是 由 于 在 磁盘 3 上 的 拥挤 所 致 。 而 且 , 通 过 包含 a3,6,,c1,es,f3;g 和 

bi 的 剩余 部 分 的 7 个 缓冲 区 ,我 们 还 不 能 完成 ;所 以 在 这 个 特定 的 例子 里 ,我 们 还 将 
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需要 保存 至 少 (16+8+5)B 个 输入 记录 的 缓冲 区 空间 。 

磁盘 分 片 的 简单 超 块 方法 将 以 下 列 方式 进行 , 即 ; 在 时 间 1 读 块 aoa1a2a3a4， 
在 时 间 2 读 50616636b4,… ,在 时 间 8 读 hohihshahs, 然 后 在 时 间 9 读 dsd6dydsd。 
(因为 dsded7dgdo 为 下 次 需要 的 超 块 ) ,等 等 。 使 用 SyncSort 的 策略 ,在 内 存 中 将 
需要 保存 (P+3)DB 个 记录 的 缓冲 区 和 PDB 指针。 上面 所 述 的 更 加 多 样 性 的 方法 
可 被 证 明 仪 需要 大 约 一 半 的 缓冲 空间 ,但 当 P 和 DD 很 大 时 ,内 存 要 求 仍然 近似 于 各 
PDB 成 比例 (参见 习题 24)。 

R.D. Barve, E. F. Grove 以 及 J.S. Vitterl Parallel Computing 23(1997) ,601 一 
631」 证明, 对 于 独立 块 方法 的 一 个 很 小 的 修改 将 导致 这 样 一 个 算法 , 它 使 磁盘 的 输 
人 /输出 运行 在 接近 它 的 全 速 之 下 ,同时 只 需要 O(P+ DlogD ) 个 缓冲 块 而 不 是 
OPD)。 他 们 的 随机 分 片 技术 把 路 段 & 的 块 ; 放 进 (zs +7) mod D 磁盘 上 ,其 中 ey 
是 在 路 段 & 首先 被 写 出 之 前 刚刚 被 选择 的 一 个 随机 整数 。 取 代替 总 是 不 变 地 输入 
D 个 块 ,从 每 一 个 磁盘 输入 一 个 ,他 们 提出 , 当 没 有 足够 的 空间 来 保持 在 某 些 磁盘 上 
向 前 谈 时 ,阻止 输入 的 一 个 简单 机 制 ,而 且 他 们 证 明了 ,他 们 的 方法 是 接近 最 优 的 。 

为 了 使 用 随机 分 片 在 DD 个 磁盘 上 进行 P 路 合并 ,我 们 可 以 维护 2D+P+Q-1 
个 浮动 的 输入 缓冲 区 ,每 一 个 容纳 B 个 记录 的 一 个 块 。 输 入 典型 地 读 到 这 些 缓冲 
区 中 的 DD 个 ,我 们 称 其 为 活动 的 读 缓 冲 区 ,另外 P 忆 个 缓冲 区 包含 其 中 记录 当前 正 被 
合并 的 前 一 些 块 ,这 些 缓冲 区 称 做 活动 的 合并 缓冲 区 。 其 余 的 D+Q 一 1 个 “空白 ” 
缓冲 区 或 者 是 空 的 ,或 者 保存 预先 取得 的 数据 , 稍 后 将 需要 它们 。Q 是 一 个 非 负 参 
数 , 它 可 以 被 增值 以 便 来 减少 在 任何 盘 上 输入 被 阻止 的 机 会 。 

所 有 路 段 的 块 如 (19) 中 那样 ,被 安排 为 以 时 间 为 序 : 首 先 我 们 列 出 每 个 路 段 的 
块 0, 然 后 通过 确定 活动 的 合并 缓冲 区 变 为 空 的 顺序 , 列 出 其 它 块 。 像 上 面 所 说 明 
的 那样 ,这 个 次 序 是 由 每 个 块 中 最 后 的 键 码 确定 的 ,所 以 我 们 很 容易 地 预报 应 该 预 
先 取得 哪些 块 。 

对 P=8,D=S3 和 Q=4 再 次 考虑 例 (19)。 现 在 我 们 仅 有 2D+P+Q-1=21 
个 输入 缓冲 块 , 而 不 是 上 面 所 述 为 了 极 大 速度 读 人 所 需要 的 29 个 。 我 们 将 使 用 下 
列 偏 离 ( 由 的 十 进 数字 所 提示 的 ) 

TX1=3, z=1, xz3=4, z=1, r=0, xe=4, xz;=2, xs=1 (22) 
作为 路 段 a ,65,…,h ;这 样 ,如 果 我 们 以 时 间 为 序列 出 它们 的 块 的 话 ,磁盘 分 别 包含 

位 盘 块 
0: <0 fi1 2Z2 daci Eb 
bo do ho el f2 U3 ds 从 (23) 


1 
2: 
3; a0 qd2 gl1 e3 02 
4: co fo d3al 二 ea i 
(22) 的 “随机 "偏离 ,连同 每 一 个 路 段 内 的 顺序 分 片 一 起 ,将 趋向 于 极 小 化 任何 特定 
的 以 时 间 为 序 所 产生 的 拥挤 。 实 际 的 处 理 类 似 下 边 这 样 进行 : 
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时 间 1 
时 间 2 
时 间 3 
时 间 4 
时 间 5 
时 间 6 
时 间 7 


活动 读 
e00080Q050 
fidodid;fo 
a2hoesg1d3 
Q2e1018141 
dsf2hiesag? 
ci1a3f3b2e4 


? dsde6? ? 


4000c0d0o 一 一 一 一 
aobocodoeofogoho 
aobocod1iel fogoho 
a2b1icod3e2f281ho 
azb1c1d4e3f2g81ho 


bocoleogo— ———) 
eofogo(did2f1— -—) 
di(d2e2d3f1g8142— ) 
d2e2d3a1f1b1g8142() 
eda(hig2—-———) 
hibg2a3f3e4( — —) 
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(24) 


在 每 一 个 时 间 单 位 ,我 们 等 候 还 未 被 合并 并 且 也 未 在 一 个 空 缓冲 区 中 的 按时 间 
来 说 的 第 一 个 块 ; 这 是 当前 被 输入 到 一 个 活动 读 缓冲 区 的 块 之 一 。 我 们 假定 ,计算 
机 比 磁盘 要 快 得 多 ;因此 ,在 输入 完成 之 前 ,在 我 们 等 候 的 那个 块 之 前 的 所 有 块 都 将 
已 进入 合并 过 程 。 我 们 还 假定 ,有 充分 的 输出 缓冲 区 可 利用 ,使 得 合并 不 会 由 于 缺 
乏 位 置 来 放置 输出 而 被 延迟 (参见 习题 26)。 当 一 轮 输 入 完成 时 ,我 们 等 候 的 那个 
块 立即 被 分 类 为 活动 合并 缓冲 区 ,而 且 它 原 占据 的 空 的 合并 缓冲 区 将 被 用 作 下 一 个 
活动 的 谈 缓 冲 区 。 其 它 D -1 个 活动 的 读 缓冲 区 现在 和 D - 1 个 最 不 重要 的 空白 组 
冲 区 交换 ;空白 缓冲 区 是 按 它 们 内 容 的 时 间 顺 序 来 排序 的 。 在 下 一 轮 , 我 们 将 等 候 
不 在 空白 缓冲 区 中 的 第 一 个 未 合并 的 块 。 在 时 间 次 序 下 居于 该 块 之 前 的 任何 空白 
缓冲 区 ,在 下 一 输入 循环 之 前 将 变 成 活动 合并 的 一 部 分 。 但 是 其 它 一 一 上 面 括号 内 
所 示 部 分 一 一 将 继续 ,而 且 在 下 一 轮 仍 将 保留 作为 空白 缓冲 。 但 是 ,在 括号 内 的 组 
冲 区 中 至 多 有 Q 个 可 以 继续 ,因为 在 输入 就 绪 之 后 ,我们 需 立 即 把 D -1 个 空白 绥 
冲 区 转换 成 活动 读 的 状态 。 任 何 另 外 的 空白 缓冲 区 将 有 效 地 被 腾 出 ,就 如 同 它们 还 
未 被 谈 和 那样。 此 腾 出 出 现在 (24) 中 的 时 间 4, 我 们 不 能 把 所 有 6 个 块 
d2e2d3f18142 继续 到 时 间 5 ,因为 Q =4, 所 以 我 们 重读 g; 和 az。 否则 这 个 例子 中 
的 读 操 作 就 以 全 速 进行 。 

给 定 有 待 合并 路 段 的 任何 时 间 顺 序 , 习 题 29 证 明 , 随 机 分 片 方法 平均 说 来 ,在 
r(DD,Q+2) 的 一 个 因 式 内 ,将 实现 极 小 个 数 的 磁盘 读 , 其 中 函数 > 列 于 表 2 中 。 例 
如 ,如 果 吃 =4 和 QQ=18, 则 用 4 个 磁盘 和 P+25 个 输入 缓冲 对 工 个 数据 块 进行 P 路 
合并 的 平均 时 间 ,将 至 多 是 在 一 个 磁盘 上 读 r(4,20)L/D 守 1.785L/4 个 块 的 时 间 。 这 
个 理论 的 上 限 是 十 分 保守 的 ;实践 中 ,性 能 是 更 好 的 , 它 非 常 接近 于 最 优 时 间 工 /4。 

表 2 随机 分 片 性 能 的 保证 









d=2 1.300 1.500 1.499 ] .467 1.444 1.422 1.393 1.370 1.353 1.339 
d=4 2.460 2.190 1.986 1.888 1.785 1.724 1.683 1.633 1.397 1.570 
d=8 3.328 2.698 2.365 2.183 2.056 1.969 1.889 1.836 1.787 1.743 
d=16 4.087 3.103 2.662 2.434 2.277 2.156 2.067 1.997 1.933 1.890 
d=32 4.503 3.392 2.917 2.654 2.458 2.319 2.218 2.130 2.062 2.005 
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( 续 ) 


r(d,a) r(d,2d) r(d,3d) r(d,4d)r(d,5d) r(d,6d) r(d,7d) r(d,8d) r(d,9d)r(d,10d) 


3.173 . . . . 2.465 2.346 


5.431 ， . . ， 2.603 2.439 


5.909 ， ， . . 2.714 2.567 
6.278 . . . . 2.820 2.675 
0.367 . ， . . 2.937 2.780 


键 码 排序 有 效 吗 ? 当 记 录 均 很 长 而 键 码 均 很 短 时 ,建立 只 由 键 码 以 及 确定 它 
们 原始 文件 位 置 的 一 系列 的 数组 成 的 新 文件 ,是 特别 有 吸引 力 的 。 在 对 这 个 键 码 文 
件 排序 之 后 ,我 们 可 以 通过 连续 的 数 1,2,… 来 代替 这 些 键 码 ; 这 样 新 文件 就 可 以 根 
据 原 始 文 件 的 位 置 排序 ,而 且 我 们 可 以 方便 地 说 明 如 何 整理 和 最 后 重新 安排 记录 。 
这 个 过 程 可 表示 如 下 : 





iD 原始 的 文件 (Ki,T)(K,,12) (Kn, IN) 长 
i) 键 码 文件 (Ki,1)(K,,2)… (Kn,N) 短 
ii) 排 好 序 的 ii) (Ky, ,Pi)(K,,p2)'"* (Ky, ,pn) 短 
iv) 编 辑 后 的 这 ) (1,p1)(2,p2)°"(N, pn) 短 
v) 排 好 序 的 iv) (qi,1)(gq2,2)… (qn, N) 短 
vi) 编 辑 后 的 i) (gi1,11)(g2,12)°"*(gn, In) 长 


这 里 p; = 当 且 仅 当 9, =j。 坟 ) 和 v) 中 的 两 个 排序 过 程 是 比较 快 的 (甚至 可 能 
是 内 部 排序 ) ,因为 记录 都 不 很 长 。 在 阶段 vi) 中 ,我 们 已 经 把 这 个 问题 归结 为 对 其 
键 码 只 不 过 是 数 (1,2,…,NN| 的 一 个 文件 进行 排序 的 问题 ;每 个 记录 现在 精确 地 指 
明 它 要 被 移 到 何 处 。 

乍 一 看 去 ,阶段 vi) 之 后 剩 下 的 外 部 重 排 问 题 似 乎 是 简单 的 。 但 事实 上 , 它 是 相 
当 困 难 的 ,而 且 还 并 未 找到 真正 好 ( 比 排序 好 得 多 ) 的 算法 。 显然 我 们 可 以 在 N 步 
之 内 进行 重 排 ,一 次 移动 一 个 记录 。 对 于 足够 大 的 N, 这 要 比 一 个 排序 方法 的 
NlogN 更 好 些 。 但 是 N 绝 不 会 这 么 大 ， 然而 N 也 还 是 非常 大 的 ,因为 N 个 寻 道 是 
不 可 想像 的 。 

对 于 vi) 的 编辑 后 的 记录 可 以 有 效 地 使 用 基数 排序 方法 ,因为 它们 的 键 码 有 一 
个 完全 一 致 的 分 布 。 在 现代 计算 机 上 ,八路 分 布 的 处 理 时 间 比 起 八路 合并 的 处 理 时 
间 要 快 得 多 ;因此 分 布 排序 大 概 是 最 好 的 过 程 (参见 $.4.7 小节, 也 可 参见 习题 19) 。 

另 一 方面 ,在 键 码 已 经 排 好 序 之 后 ,来 做 一 个 完全 的 排序 似乎 是 浪费 。 一 个 原 
因 是 ,外 部 重 排 问 题 意料 不 到 地 困难 。 这 点 已 由 R. W. Floyd 所 发 现 他 找到 了 为 丰 
一 个 磁盘 设备 上 重 排 记录 所 需要 的 寻 道 次 数 的 一 个 重要 下 限 [Complexity of Com- 
puter Computations (New York:Plenum ,1972 ) ,10S 一 109 | 。 

首 助 于 5.4.8 小 节 中 的 电梯 问题 ,来 描述 Floyd 的 结果 是 方便 的 ;但 这 次 我 们 
要 来 寻找 一 个 极 小 化 停止 次 数 , 而 不 是 运行 距离 的 电梯 调度 。 使 停止 次 数 极 小 并 不 
完全 等 同 于 极 小 - 寻 道 的 重 排 算 法 ,因为 每 次 停止 都 把 对 电梯 的 输入 和 从 电梯 的 输 
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出 结合 起 来 ;但 是 停止 极 小 化 准则 十 分 接近 于 这 里 的 基本 思想 。 
我 们 将 利用 “离散 炉 ”(discrete entropy) 男 数 


F(n)= >, (Tleklt+1)= B(n)+n-1-= nlgnl|- 2 "I +n (25) 


其 中 B(n) 是 二 叉 插 入 函数 , 即 等 式 5.3.1-(3)。 由 等 式 5.3.1-(34),F(n) 是 及 n 
个 叶 的 一 个 二 又 树 的 极 小 外 部 通路 长 度 , 且 
nlgn < F(n) < nlgn +0.0861n (26) 
由 于 FF(n) 是 凸 的 且 满 足 F(n)=n+F(Ln/2j])+F(n/21), 由 上 面 的 引 理 C 我 们 
知道 
F(n) 过 F(k)+ Fl(n—-k)+n 对 于 0 三 kn (27) 
从 下 的 外 部 通路 长 度 的 特征 来 看 ,这 个 关系 也 是 明显 的 ;这 个 关键 性 的 事实 下 面 还 
要 用 到 。 
像 在 5.4.8 小 节 中 一 样 ,我 们 假定 ,每 一 层 可 容纳 5 个 人 ,电梯 可 容纳 mx 个 人 ， 
此 楼 共有 n 层 。 令 S; 为 当前 在 i 层 而 其 目的 地 是 ; 层 的 人 数 。 在 这 个 建筑 物 中 人 
员 的 任何 配置 的 集中 率 (togetherness rating) 定 义 为 和 2 ,FSs) 
例如 ,假定 5= m= n=6, 而 且 开 始 时 ,36 个 人 的 分 布 如 下 : 


123456 123456 123456 123436 123456 123456 (28) 
电梯 是 空 的 , 停 在 1 层 上 ;“L "表示 一 个 空位 置 。 在 每 一 层 上 ,对 每 种 可 能 的 目的 
地 , 均 有 一 个 人 与 之 相应 ,因此 所 有 的 点 都 为 1, 且 集中 率 为 0。 如 果 现在 电梯 运载 
6 个 人 到 第 2 层 ,我 们 有 下 列 的 配置 


123430 
串口 器 口 口 123456 123456 123456 123456 123456 (29) 


而 集中 率 变 为 6F(0) +24F(1) + 6F(2) = 12。 现 在 假设 电梯 运载 1,1,2,3,3 和 4 
到 3 层 ， 


112334 
LILILILIL! 245566 123456 123456 123456 123436 (30) 


则 集中 率 牙 升 为 4F(2)+2F(3)=18。 当 所 有 的 人 都 被 运载 到 他 们 的 目的 地 时 , 集 
中 率 将 是 6F(6)=96。 

Floyd 发 现 ,在 每 次 停止 之 后 ,集中 率 的 增加 绝 不 会 多 于 b+ m ,因为 一 组 ;个 
相同 目的 地 的 人 同一 组 “个 类 似 F(s+s) 一 F(s) 一 F(s' <s+s 。 因 此 我 们 有 下 
列 的 结果 。 

定理 今 t 为 上 述 定 义 下 ,bn 个 人 初始 配置 的 焦 中 雍 。 为 把 他 们 全 部 和 运 到 甩 
的 地 ,电梯 至 少 必须 个 

[(F(b)n — 2)/(b+m)| 
次 。 | 

把 这 个 结果 用 磁盘 术语 表达 , 即 :假设 有 bn 个 记录 , 且 每 个 块 有 5 个 记录 ,内 存 

一 次 可 容纳 mx 个 记录 。 每 一 次 磁盘 读 都 读 一 个 块 到 内 存 中 ,每 一 次 磁盘 写 则 存储 
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一 个 块 ,s; 是 块 i 中 属于 块 7 的 记录 的 个 数 。 如 果 ”之 2 , 则 存在 这 样 的 初始 配置 ,其 
中 所 有 s 委 1 所 以 上 =0, 且 为 了 重 排 这 些 记 录 , 至 少 需要 f(b)n/(b+ 7 ) 
(bnlgb)/m 个 读 块 操作 ( 当 5 很 大 时 ,因子 lgb 使 这 个 下 限 不 可 忽略 )。 习 题 17 对 
于 m 比 大 得 多 的 一 般 情况 ,导出 了 一 个 强 得 多 的 下 限 。 


习题 


1.[M22] 正文 中 介绍 了 一 个 方法 ,通过 它 ,为 读 一 个 磁道 的 一 部 分 x 所 需要 的 平均 等 待 时 
间 从 地 减少 到 地 (1- z?) 轿 转动 。 当 有 一 个 存储 臂 时 ,这 是 极 小 的 值 。 如 果 有 两 个 存 取 避 ,相距 


180", 任 一 时 刻 仅 有 一 个 臂 可 传送 数据 , 则 对 应 的 极 小 平均 等 每 时 间 是 什么 。 

2.[LM301] (A.G.Konheim) 本 问题 的 目的 是 来 考察 , 当 合并 被 垂 二 分 配 于 柱 面 的 文件 时 ,一 
个 磁盘 的 存 取 辟 必 须 移动 多 远 。 假 设 有 P 个 文件 ,每 个 含 工 个 记录 块 ,并 且 假 定 每 个 文件 的 第 一 
个 块 出 现在 柱 面 1 上 ,第 2 个 块 出 现在 柱 面 2 上 ,等 等 。 在 每 个 块 中 最 后 的 键 码 的 相对 次 序 在 合 
并 期 间 支 配 存 取 辟 的 运动 ,因此 我 们 可 以 以 下 列 在 数学 上 可 处 理 的 方式 表示 这 一 状况 :考虑 PL 
个 有 序 对 的 一 个 集合 





(aily1) (c21，1) 机 (ap1,1) 
(a12,2) (a22 ,2) 人 (ap2 ,2) 


(aiLsL) (azLsL) (ap 工 ) 
其 中 集合 ia; 1 三 iP ,1 人 全 LL| 由 在 某 种 顺序 下 的 数 11,2,… ,PL| 组 成 , 且 其 中 对 于 1 三 i<L， 
a; < ai(;+1( 行 表示 柱 面 ,列表 示 输 入 文件 ) ,以 它们 的 第 一 个 分 量 来 对 这 些 对 排序 并 令 得 到 的 序 
列 为 (1,71)(2,j2)…(PL ,jpL)。 试 证 明 , 如 果 a 的 (PL)! /L!1” 个 选择 的 每 一 个 都 是 同等 可 能 
的 , 则 


| 72— J1 1+| js 772 lt +| jp — jpL-1 | 


(L— (1 +(P-— D252/ (人 


提示 :参见 习题 5.2.1-14。 注 意 当 L 一 时 这 个 值 渐 近 等 于 二 (P - 1)L VxrL + O(PL),。 


3.[M15] 假设 内 存 有 限 使 得 十 路 合并 是 不 可 行 的 。 问 如 何 修改 递 推 关系 (3),(4),(5) ,使 得 
在 所 有 的 具有 n 片 叶 子 且 没有 叉 数 大 于 9 的 内 部 节点 的 树 9 中 ,4(2a) 是 aD(9) + PE( 轨 的 极 小 
值 ? 

了 4.[M21] 考虑 平方 根 缓冲 区 分 配方 案 的 一 个 修改 形式 ,其 中 所 有 已 个 输入 缓冲 区 有 相同 的 

长 度 ,但 是 应 当选 择 输出 缓冲 区 以 便 极 小 化 寻 道 时 间 。 

a) 对 于 一 工 个 字符 的 已 路 合并 ,推导 出 对 应 于 (2) 的 一 个 运行 时 间 公 式 。 

b) 试 证 明 ,可 以 修改 定理 K 中 的 构造 ,以 得 到 这 样 一 个 合并 型 式 ,按照 你 从 a) 中 得 到 的 公式 ， 
这 个 型 式 是 最 优 的 。 

5.[M20] 当 使 用 两 个 磁盘 ,以便 在 一 个 上 的 读 人 和 在 另外 一 个 上 的 写 相 重 玲 时 ,我们 不 可 
能 使 用 如 图 93 所 示 的 合并 型 式 ,因为 某 些 叶 在 偶数 级 上 而 某 些 叶 在 奇数 级 上 。 说 明 如 何 修改 定 
理 开 ,以 便 产 生出 这 样 的 树 , 即 在 所 有 的 叶 都 出 现在 偶数 级 上 或 都 出 现在 奇数 级 上 这 一 约束 条 件 
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下 ,它们 是 最 优 的 。 

6.[22] 当 n=23 且 a=8B=1 时, 求 在 习题 5 的 意义 下 最 优 的 一 株 树 (你 可 能 希望 使 用 计算 机 
来 做 )。 

P7.[M24] 当初 始 路 段 不 全 有 相同 长 度 时 (在 定理 H 的 意义 下 ), 最 好 的 合并 型 式 使 aD (5)+ 
BE( 沪 极 小 ,其 中 D(D) 和 E( 有 此 处 表示 加 权 的 路 径 长 度 : 把 权 wi ,…,w( 对 应 于 初始 路 段 的 长 
度 ) 附 加 到 树 的 每 个 叶 , 而且 叉 数 之 和 与 路 径 长 度 乘 以 适当 的 权 。 例 如 ,如 果 29 是 图 92 的 一 株 树 ， 
则 我 们 将 有 D(W)=6wi+6w2+7w3+9wat+9ws+7ws3t+4w7t+4wgs,E(D) =2w1+2w +2w3 
+ 3wat+3ws twet wt weo 

试 证 明 ,总 有 一 个 最 优 树 ,其 中 ,对 于 某 个 &, 首 先 合并 最 短 的 & 个 路 段 。 

8. [49] 在 习题 7 的 意义 下 ,是 否 有 一 个 算法 ,对 于 给 定 的 a,B 和 权 避 /1 ，,…,w;, 它 对 某 个 c， 
仅 用 O(n) 步 ,就 找 出 最 优 树 ? 

9.[HM39] (L. Hyafil,F. Prusker,J. Vuillemin) 证 明 , 对 于 国定 的 a 和 8B, 当 n 一 % 时 


Ai(n) = (min SE )n log n+ O(n) 


m>2 log m 


其 中 O(2) 项 之 0。 

10. [HM44] (L. Hyafil,F.Prusker,J. Vuillemin) 证 明 , 当 a 和 8 固定 时 ,如 果 m 使 习题 9 中 
的 系数 极 小 , 则 对 于 所 有 充分 大 的 n,Ai(n)=amn+Bn+ A,(n)。 

11.[M29] 使 用 习题 (6) 和 (11) 的 符号 ,证 明 对 于 所 有 的 mr 之 2 和 nn 宇 2, fl(n)+ mn 之 
f(n), 并 确定 使 等 式 成 立 的 所 有 mr 和 n。 

12.[25] 试 证 明 , 对 所 有 n >0, 存 在 具有 个 叶 和 极 小 又 数 路 径 长 度 (6) 的 一 株 树 ,其 所 有 的 
叶 都 在 同一 级 上 。 

13.[M24 ]」 试 证 明 , 对 于 2 过 nn 过 4d(a,8) ,其 中 dc,8B) 在 (12) 中 定义 ,在 定理 开 的 意义 下 惟一 
最 好 的 合并 型 式 是 一 个 n 路 合并 。 

14. [40] 若 使 用 缓冲 区 分 配 的 平方 根 方法 , 则 对 图 92 中 的 合并 型 式 的 寻 道 时 间 将 与 (V2 +V4 
+MVI+V1+V8)2+(VI+V1+V2)2+(VL+V2+VL+V4) +(VLI+V1I+V2) 成 正比 ;这 实际 上 是 每 
个 内 部 节点 的 (Vni+ 二 Yrnmt+t Vnit+… 二 na) 的 和 ,其 中 各 节点 对 应 的 子 树 有 (nn1,…， 
nm) 个 叶 。 基 于 这 个 公式 , 试 编写 一 个 计算 机 程序 , 它 生成 有 1,2,3,… 个 叶 的 极 小 寻 道 时 间 树 。 

15. [M221 试 证 明 ,如 果 电 梯 开 始 时 为 空 , 且 如 果 下 (5)n 关 1, 则 可 对 定理 下 稍 做 改进 , 即 : 在 
这 样 的 情况 下 ,至 人 少 T (5)n+m 一 1)/(5+ m) | 次 停止 是 必须 的 。 

16.[23] (R.W.Floyd) 试 求 一 个 电梯 调度 , 它 运 载 (28) 中 的 所 有 人 到 他 们 的 目的 地 最 多 停 
12 次 (配置 (29) 表 明 一 次 停止 ,而 不 是 两 次 之 后 的 状况 )。 

17. [PMA25] (R.W.Floyd,1980) 由 于 某 些 初始 配置 必定 要 求 下 述 这 么 多 次 的 停止 , 试 证 明 
定理 下 的 下 限 可 改进 为 
n(blInn—-lnb—-1) 
Inn+b(ll+ln(l+ m/v2)) 

提示 :计算 在 * 次 停止 之 后 可 以 排序 的 配置 数 。 

18.[PA426] 设 工 是 习题 17 的 下 限 。 试 证 明 ,为 把 所 有 人 带 到 他 们 的 目的 铁 层 所 需要 的 电 
梯 停 止 的 平均 次 数 , 当 人 们 进入 到 bn 个 磁盘 的 所 有 (bn)! 种 可 能 的 排列 都 是 同等 可 能 的 时 ,至 
少 为 L-1。 

P19.[25] (B.T.Bennett 和 A.C.Mckellar) 考虑 下 列 键 码 排序 的 方法 (以 含 10 个 键 码 的 一 个 
示例 文件 来 说 明 ) : 

i) 源 文件 :(50,10)(08,11)(51,12)(06,13)(90,14)(17,1s)(89,16)(27,17)(65, 18)(42, 19) 

ii) 键 码 文 件 :(50,0)(08,1)(51,2)(06,3)(90,4)(17,5)(89,6)(27,7)(65,8)(42,9) 
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十 ) 排 序 后 的 ii):(06,3)(08,1)(17,5)(27,7)(42,9)(50,0)(51,2)(65,8)(89,6)(90,4) 

iv) 箱 指定 ( 见 下 面 ):(2,1)(2,3)(2,5)(2,7)(2,8)(2,9)(1,0)(1,2)(1,4)(1,6) 

v) 排 序 后 的 iv):(1,0)(2,1)(1,2)(2,3)(1,4)(2,5)(1,6)(2,7)(2,8)(2,9) 

vi) 使 用 v) 把 i) 分 布 到 箱 中 : 

箱 1:(50, 了 To)(51, 了 7,)(90,14)(89,16) 
箱 2:(08, 了 1)(06,13)(17,1s)(27,1;)(65, Is)(42, 1,) 
vii) 荐 代 选 择 的 结果 ,首先 读 箱 2, 然 后 读 箱 1: 
(06,13)(08,11)(17,1s)(27,17)(42,19)(50,16)(51, 12)(65, 1e)(89, 16)(90, 1,) 

步骤 iv) 中 箱 号 的 指定 ,是 通过 对 iii) 做 蔡 代 选择 ,从 右 到 左 , 旦 以 第 二 个 分 量 的 递减 次 序 来 进 
行 。 箱 号 即 路 段 号 。 上 面 的 例子 使 用 在 选择 树 中 仅 有 两 个 元 素 的 蔡 代 选择 。 在 iv) 和 vii) 中 对 替 
代 选 择 应 使 用 相同 大 小 的 树 。 注 意 箱 的 内 容 不 必 是 排序 的 1 

试 证 明 ,这 个 方法 将 完成 排序 , 即 viit) 中 蔡 代 选择 将 仅 产 生 一 个 路 段 (这 个 技术 通过 分 布 而 减 
少 在 传统 的 键 码 排序 中 所 需要 的 箱子 数 ,特别 是 当 输 入 大 部 分 已 处 于 有 序 时 )。 

> 20.[25] 现代 的 硬件 /软件 系统 为 程序 员 提 供 了 一 个 虚拟 内 存 , 使 得 编写 程序 时 ,就 好 像 有 一 
个 非常 大 的 .可 以 包含 所 有 数据 的 内 存 一 样 。 此 内 存 分 为 一 些 页 ,在 某 一 个 时 刻 只 有 一 小 部 分 在 
真正 的 内 存 当 中 ,其它 的 则 在 磁盘 或 磁 鼓 上 。 程 序 员 不 必 关 心 这 样 的 细节 ,因为 系统 会 处 理 每 一 
件 事 ; 当 需要 时 新 的 页 会 被 自动 地 放 进 内 存 中 。 

看 起 来 ,虚拟 内 存 技术 的 发 明 使 外 部 排序 方法 显得 有 些 过 时 ,因为 使 用 针对 内 部 排序 所 开发 
的 技术 就 可 简单 地 完成 工作 。 试 讨论 这 一 情况 , 问 在 什么 方式 下 ,一 个 定制 的 外 部 排序 方法 要 胜 
过 一 个 应 用 通用 分 页 技术 的 内 部 排序 方法 ? 

P21.LM15]」 当 把 文件 分 片 到 个 磁盘 时 ,一 个 工 个 块 的 文件 中 有 多 少 块 会 分 到 磁盘 ;) 上 ? 

22.[22] 如 果 使 用 Gilbreath 原理 合并 两 个 文件 ,而 且 要 以 a 个 块 来 存 键 码 u ,以 5 个 块 来 存 
键 码 B; , 问 为 在 需要 时 即 有 信息 可 用 ,a; 应 被 放置 在 哪个 块 中 ? 

23.120] 当 分 别 以 (a) 超 块 分 片 和 (b)Gilbreath 原理 来 进行 两 路 合并 时 ,为 使 输入 连续 地 进 
行 ,输入 缓冲 区 需要 多 少 空间 ? 

24.[4436] 假设 已 经 把 PP 个 路 段 分 片 到 DD 个 磁盘 上 ,使 得 路 段 & 的 块 7 出 现在 磁盘 (z + j) 
mod D 上 。 一 个 P 路 合并 将 以 如 (19) 那 样 的 某 个 时 间 顺 序 读 这 些 块 。 如 果 要 连续 地 输入 多 组 也 
个 块 , 则 如 (21) 中 那样 ,我 们 将 在 时 刻 1 读 每 个 磁盘 上 所 存 的 第 i 个 块 。 无论 时 间 顺 序 如 何 , 为 保 
存 还 未 被 合并 的 数据 ,内 存 中 需要 的 缓冲 存 记 录 的 极 小 个 数 是 多 少 ? 说 明 如 何 选 择 偏离 值 zi， 
ZX2，,"…Xxp ,使 得 在 最 坏 情况 下 需要 的 缓存 最 少 。 

25.[23] 对 于 QQ=3 而 不 是 Q=4 的 情况 , 重 做 正文 中 随机 分 片 的 示例 。 与 (24) 不 同 ,什么 
缓冲 区 的 内 容 将 出 现 ? 

26.126] 有 多 少 输 出 缓冲 区 能 够 保证 ,随机 化 分 片 的 PP 路 合并 不 会 由 于 内 存 中 缺乏 位 置 来 
放置 新 近 合 并 的 输出 而 停止 ? 假定 写 一 个 块 的 时 间 等 于 读 一 个 块 的 时 间 。 

27.[LAHM271]( 颖 环 占 有 问题 ) 假设 把 个 空 瓶子 放 成 一 个 圆 并 且 指 定 了 编号 0,1,…,n 一 
1。 对 于 =1,2,…,p, 我 们 把 mj 球 撕 到 瓶 (X + j) mod n 中 ,其 中 j=0,1,…,ms 一 1, 且 整数 
zx; 是 随机 选择 的 。 设 S,《( m1,，… ,my) 是 在 瓶 0 中 的 球 数 , 设 FE, (mi,…,m,) 是 在 最 满 的 壮 中 预 
期 的 球 数 。 

a) 证 明 Ei(mi,…*…* ,mp) 人 ,min(1,nPr(S,(mi,… my) 之 1)), 其 中 鞠 = m1 + 二 mo 

b) 使 用 尾部 不 等 式 ,等 式 1.2.10-(25) ,证明 对 于 任何 非 负 实数 al , ap,… ,a, 


n(l1+ 2 


E, 9 ”9 过 1 工 ， 
(mi m, ) Dm (1 + a ) 
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a ，"… ,Qam 的 什么 值 给 出 最 好 的 上 限 ? . 

28.[HM47] 继续 27 题 ,E, (m1,… my) 宇 Ei(mi+ m2 ,m3 ,Mmp) 购 ? 

P29.[M30] 本 题 的 目的 是 导出 , 当 块 表示 P 个 路 段 和 D 个 磁盘 时 ,通过 随机 分 片 过 程 ,为 输 

和 人 以 时 间 为 序 的 任何 块 序列 所 需要 的 平均 时 间 的 一 个 上 限 。 我 们 说 , 当 算 法 进行 时 (参见 (24))， 
在 每 一 时 间 步 中 所 等 候 的 块 被 “标记 ”; 因 此 总 的 输入 时 间 和 被 标记 的 块 个 数 成 正比 。 标 记 仅 依 赖 
于 磁盘 存 取 的 时 间 序 列 ( 参 见 (20))。 

a) 证 明 ,如 果 Q+1 个 时 间 顺 序 下 连续 的 块 中 有 Ni 个 在 磁盘 ) 上 , 则 在 这 些 块 中 至 多 有 
max( No,N1，… ,Np-1) 是 被 标记 的 。 

b) 通 过 证 明 对 于 Q+2 个 连续 的 块 它 也 成 立 来 加 强 a) 的 结果 。 

c) 给 定 任 何 时 间 顺 序 ,借助 于 表 2 中 的 函数 >(D,Q+2) ,使 用 习题 27 的 循环 占有 问题 ,得 到 
平均 运行 时 间 的 一 个 上 限 。 

30. [HM30] 试 证 明 , 当 ->co 时 ,对 于 固定 的 d ,习题 29 的 函数 >(d,m) 满 足 r(d ,sdlogd) 
=1+ O(N;s)。 

31. [HM48 ] 作为 P,Q 和 DD 的 孙 数 ,分 析 随 机 分 片 以 确定 它 真正 的 平均 特性 ,而 不 仅仅 是 一 
个 上 限 ( 甚 至 在 Q=0 的 情况 下 , 它 需 要 平均 6(L/vD) 的 读 循 环 , 这 是 很 有 趣 的 )。 
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既然 我 们 已 经 接近 这 极为 元 长 的 一 章 的 结尾 ,我 们 最 好 “整理 出 "已 经 研究 过 的 
最 为 重要 的 事实 。 

用 于 排序 的 一 个 算法 ,是 一 个 这 样 的 过 程 , 它 重 新 安排 一 个 文件 的 所 有 记录 ,使 
得 其 键 码 处 于 递增 的 次 序 。 这 有 序 的 排列 是 有 用 的 ,因为 它 把 相同 键 码 的 记录 放 到 
一 起 ,允许 有 效 地 处 理 按 同 一 键 码 排 好 序 的 多 个 文件 ,这 导致 了 有 效 的 检索 算法 ,而 
且 使 计算 机 的 输出 看 上 去 不 那么 混乱 。 

当 所 有 的 记录 都 置 于 计算 机 的 高 速 内 存 中 时 ,就 使 用 内 部 排序 。 我 们 对 于 内 部 
排序 已 经 研究 了 很 多 算法 ,其 详细 程度 各 不 相同 ;不 过 或 许 我 们 并 不 知道 对 这 个 问 
题 有 这 样 多 种 不 同方 法 时 ,我 们 反倒 会 轻松 些 ! 学 习 所 有 这 些 技术 是 有 趣 的 ,但 是 
现在 我 们 却 不 得 不 面临 这 么 一 种 情况 , 即 在 一 给 定 的 情况 下 ,到 底 应 该 使 用 哪 一 种 
方法 。 

如 果 不 论 是 对 哪 一 种 应 用 ,或 不 论 正 在 使 用 的 是 什么 计算 机 ,仅仅 有 一 两 种 排 
序 方法 , 它 比 所 有 其 它 的 排序 方法 都 好 ,那么 ,事情 倒 很 好 解决 。 但 是 事实 上 ,每 种 
方法 都 有 它 各 自 的 特点 。 例 如 , 冒 泡 排序 (算法 5.2.2B) 并 没有 明显 可 取 的 特性 , 因 
为 总 有 一 个 更 好 的 方法 来 完成 它 所 能 完成 的 ;但 即使 是 这 样 一 项 技术 ,在 做 适当 的 
拓展 之 后 ,证 明 对 于 两 条 磁带 的 排序 是 有 效 的 (参见 5.4.8 小 节 )。 因 此 我 们 发 现 ， 
几乎 所 有 的 算法 都 值得 去 记 住 ,因为 在 某 些 特定 应 用 中 ,它们 是 最 好 的 。 

以 下 的 简短 总 结 ,给 出 了 对 于 内 部 排序 ,我 们 所 涉及 到 的 最 有 意义 算法 的 概述 。 
和 通常 一 样 , N 表示 给 定 文件 中 的 记录 数 。 

1. 分 布 计数 ,算法 5.2D 当 键 码 有 一 个 小 的 变化 范围 时 ,此 方法 非常 有 用 。 尼 
是 稳定 的 (不 影响 具有 相同 键 码 记 录 的 次 序 ), 但 需要 存储 计数 器 和 2 个 记录 的 存 
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储 空间 。 习 题 5.2-13 中 给 出 了 在 损失 稳定 性 的 代价 下 ,节省 N 个 记录 空间 的 一 个 
修改 。 

2. 直接 插入 ,算法 5.2.1S 对 于 编程 来 说 是 最 简单 的 方法 ,不 需要 额外 的 空 
间 , 而 且 对 于 较 小 的 N( 比 如 说 N25) 十 分 有 效 。 对 于 大 的 NN, 它 慢 得 不 能 容忍 ， 
除非 输入 是 接近 于 有 序 的 。 

3.Shell 排序 ,算法 5.2.1D 也 十 分 容易 编程 ,而且 使 用 极 小 的 内 存 空间 ; 它 对 
于 大 小 适当 的 六 (比如 说 六 委 1000) 相 当 有 效 。 

4. 表 插 入 ,算法 5.2.1L 使 用 和 直接 插 和 人 相同 的 基本 思想 ,所 以 它 仅 适合 于 小 
的 N。 如 同 以 下 所 述 的 其 它 表 排序 方法 一 样 , 它 通过 人 处理 链接 减少 了 移动 长 记录 的 
花 销 ; 当 记 录 的 长 度 可 变 , 或 者 是 其 它 数 据 结 构 的 一 部 分 时 ,特别 有 效 。 

5, 地 址 计算 ” 当 键 码 有 一 个 已 知 的 (通常 是 一 致 的 ) 分 布 时 很 有 效 。 这 个 方法 
主要 的 变种 是 多 表 播 入 (程序 5.2.1M), 以 及 MacLaren 的 组 合 基 数 插入 方法 (在 


5.2.5 小 节 的 结尾 处 讨论 ), 后 者 仅 用 O (VN ) 个 额外 内 存单 元 来 完成 。 在 定理 
5.2.5T 中 讨论 了 两 遍 扫 描 的 方法 。 

6. 合 并 交换 ,算法 5.2.2M(Batcher 方法) ”此 算法 和 它 的 “姊妹 ”算法 双 调 排序 
(习题 5.3.4-10), 在 大 量 的 比较 可 同时 进行 时 很 有 用 。 

7. 快 速 排 序 ,算法 5.2.2Q(Hoare 方法) ”此 算法 大 概 是 内 部 排序 中 最 有 用 的 通 
用 技术 ,因为 它 需要 非常 少 的 内 存 空 间 ,而 且 在 大 多 数 计算 机 上 , 当 很 好 地 实现 时 ， 
它 的 平均 运行 时 间 少 于 其 它 算 法 的 平均 运行 时 间 。 但 是 在 最 坏 的 情况 下 , 它 运 行 得 
非常 之 慢 , 所 以 当 可 能 是 非 随机 的 数据 时 ,应 当 小 心 选择 分 划 的 元 素 。 如 习题 5.2. 
2-55 中 所 建议 的 ,选择 3 个 元 素 的 中 间 值 ,使 最 坏 的 情况 极 不 可 能 发 生 , 同 时 也 对 平 
均 运 行 时 间 有 所 改进 。 

8. 直接 选择 ,算法 5.2.3S 当 可 用 特殊 硬件 来 高 速 寻 道 一 个 表 的 最 小 元 素 时 ,是 
一 个 特别 合适 的 简单 方法 。 

9. 堆 排序 ,算法 5.2.3H 需要 极 小 的 内 存 ,而 且 保证 十 分 快 地 运行 ; 它 的 平均 时 
闻 和 极 大 时 间 都 约 为 快速 排序 平均 运行 时 间 的 两 倍 。 

10. 表 合并 ,算法 5.2.4L 此 算法 是 一 个 表 排 序 , 它 和 堆 排 序 相像 ,保证 甚至 在 
最 坏 的 情况 下 也 是 相当 快 的 ,而 且 对 于 相等 的 键 码 它 是 稳定 的 。 

11. 基 数 排序 ,使 用 算法 5.2.5R 它 是 一 种 表 排 序 ,特别 适合 于 这 样 一 些 键 码 
的 排序 ,它们 或 者 比较 短 ,或 者 是 按 一 个 非 通常 的 字典 顺序 排列 。 也 可 以 使 用 分 布 
计数 方法 ( 见 上 面 的 1) 以 代替 链接 ;这 样 一 个 过 程 需要 2N 个 记录 空间 ,加 上 一 个 计 
数 器 表 ,但 是 它 的 内 部 循环 的 简单 形式 ,使 它 特别 适用 于 超 高 速 的 “ 吞 嚼 数据 "的 有 
先行 控制 的 计算 机 。 警 告 : 基 数 排序 不 应 对 小 N 使 用 ! 

12 .合并 插入 , 见 $.3.1 小 节 ”在 一 个 “直接 行 编码 ”的 例 程 中 ,特别 适合 于 非常 
小 的 N。 例 如 ,在 需要 对 大 量 5 个 或 6 个 记录 一 组 排序 的 应 用 中 , 它 将 是 适当 的 方 
法 。 

13. 混合 的 方法 把 上 述 的 一 种 或 多 种 技术 组 合 在 一 起 ,也 是 可 能 的 。 例 如 , 合 
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并 插入 可 用 于 快速 排序 中 出 现 的 短 的 子 文件 排序 。 

14. 最 后 ,一 个 出 现在 习题 5.2.1-3 答案 中 的 未 命名 方法 ,似乎 要 求 最 短 的 排序 
程序 。 但 它 的 平均 运行 时 间 同 N; 成 正比 ,这 就 使 它 成 为 本 书 中 最 慢 的 排序 例 程 ! 

表 1 综述 了 当 为 MIX 编程 时 ,这 些 方法 的 速度 和 空间 特征 。 重 要 的 是 要 认识 
到 ,这 个 表 中 的 数字 仅仅 是 相对 的 排序 时 间 的 粗略 表示 ;它们 仅 应 用 于 一 台 计 算 机 
上 ,而 且 关 于 输入 数据 所 做 的 假定 对 所 有 的 程序 来 说 并 不 完全 一 致 。 其 它 作 者 给 出 
了 与 此 表 相 似 的 其 它 一 些 比较 表 , 而 且 没 有 两 个 人 给 出 相同 的 结论 来 ! 男 一 方面 ， 
这 些 估计 时 间 至 少 给 出 当 对 一 个 字 的 记录 排序 时 ,对 每 种 算法 可 能 预期 的 大 体 速 
度 ,因为 MIX 是 一 台 相 当 典 型 的 计算 机 。 

表 1 中 的 “空间 ” 列 , 给 出 了 每 种 算法 所 使 用 的 辅助 存储 数量 的 某 些 信息 , 它 以 
记录 长 度 为 单位 ,其 中 “表示 记录 中 链接 字段 部 分 所 需 的 长 度 。 例 如 ,N (1+) 意 
味 着 这 个 方法 要 求 N 个 记录 加 上 N 个 链接 字段 的 空间 。 

表 1 中 出 现 的 渐 近 平均 时 间 和 极 大 时 间 , 仅 仅 给 出 了 当 六 很 大 时 占 支配 地 位 
的 前 导 项 , 且 假 定 为 随机 输入 ;c 表示 一 个 未 确定 的 常数 。 这 些 公式 可 能 弟 会 引起 
误解 ,所 以 特地 对 两 个 特殊 的 输入 数据 序列 , 列 出 了 程序 实际 的 总 运行 时 间 。NN = 
16 的 情况 指 的 是 16 个 键 码 , 它 出 现在 5.2 节 的 许多 示例 中 ;N = 1000 的 情况 指 的 
是 由 

Ki = 0; K,_! = (3141592621 K, + 2113148651)mod 10™ 
所 定义 的 序列 Ki1,K,*…, Kilo000。 一 个 相当 “高 质量 ”的 MIX 程序 用 来 表示 表 中 的 每 
种 算法 ,通常 还 加 上 了 习题 中 所 建议 的 改进 。 这 些 程序 运行 时 的 字 节 大 小 为 100。 

外 部 排序 技术 不 同 于 内 部 排序 ,因为 它们 必须 使 用 比较 原始 的 数据 结构 ,并且 
着 重 强 调 把 它们 的 输入 /输出 时 间 极 小 化 。5.4.6 小 节 综 述 了 对 于 磁带 合并 已 经 发 
现 的 有 趣 方 法 ,5.4.9 小 节 讨 论 了 磁盘 和 磁 辟 的 作用 。 

当然 ,排序 并 不 是 我 们 的 全 部 目的 。 在 研究 所 有 这 些 排序 技术 的 同时 ,我 们 学 
习 了 大 量 的 有 关 如 何 处 理 数 据 结 构 、 如 何 处 理 外 存 ,以 及 如 何 分 析 算 法 等 问题 ;而 
且 , 也 许 我 们 甚至 已 经 掌握 了 一 点 儿 如 何 来 发 现 新 的 算法 的 本 领 。 


早期 的 发 展 对 于 今天 排序 技术 起 源 的 探索 ,把 我 们 带 回 到 19 世纪 ,因为 那 时 
发 明了 第 一 批 用 于 排序 的 机 器 。 美 国 每 十 年 进行 一 次 全 国人 口 普查 ,而 到 1880 年 
左右 ,处 理 庞大 的 人 口 普 查 数据 的 问题 就 变 得 十 分 尖锐 ;事实 上 ,独身 者 (相对 于 结 
了 婚 的 ) 的 总 数 总 不 能 在 当年 就 造 出 表 , 即 使 所 需要 的 信息 都 已 经 收集 好 了 也 是 如 
此 。Herman Hollerith, 人 口 统计 局 的 一 名 20 岁 的 职员 ,发 明了 一 台 巧 妙 的 电动 制 表 
机 ,以 满足 更 好 地 进行 统计 收集 的 需要 ,他 的 大 约 100 台 机 器 成 功 地 用 于 制造 1890 
年 的 人 口 名 册 。 

图 94 所 示 为 Hollerith 最 初 的 用 电池 驱动 的 装置 ;我 们 的 主要 兴趣 在 于 右边 的 
“排序 盒 ”, 它 已 被 打开 以 示 出 26 个 内 部 小 室 的 一 半 。 操 作 员 插入 一 张 6 言 Inx 3 二 
In 的 穿孔 卡片 到 “夹具 ”上 ,然后 放下 手柄 ;这 使 得 在 卡片 中 穿 有 和 孔 的 地 方 ,上 面板 上 
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用 弹簧 驱动 的 针 同 在 下 面板 上 的 水 银 容 器 相 接触 。 相 应 的 完整 的 线路 将 引起 控制 
台面 板 上 的 相关 转 人 磁盘 前 进 一 个 单位 ;然后 ,26 个 排序 盒 盖 之 一 推 开 。 这 时 ,操作 
员 重 新 打开 夹具 ,把 卡片 放 到 打开 的 小 室 ,并 关上 盖 。 据 说 ,一 个 人 在 6 个 半 小 时 的 


一 个 工作 日 中 通过 这 个 机 器 能 运行 19 071 张 卡片 ,大约 每 分 钟 49 张 卡片 (一 个 





练 操作 员 的 工作 速度 大 约 仅 为 这 个 速度 的 


3 左右 )! 





图 94 ”Hollerith 最 初 的 制 表 机 和 和 排序 机 
(经 IBM 档案 室 同 意 采 用 此 照片) 


随 着 人 口 的 持续 增长 ,原来 的 制 表 排序 机 已 经 不 足以 处 理 1900 年 的 人 口 ,所 以 
Hollerith 又 发 明了 另 一 台 机 器 以 解决 数据 处 理 的 和 危机。 他 的 新 设备 (1901 年 和 
1904 年 的 专利 ) 有 一 个 自动 的 进 卡 ( 片 ) 器 ,事实 上 它 很 像 现 代 的 卡片 排序 机 。 关 于 
Hollerith 早期 机 器 的 故事 ,Leon E. Truesdell 曾 在 The Development of Punch Card 
Tabulation (Washington: U.S.Bureau of the Census, 196$) 中 予以 有 趣 而 详尽 地 描 
述 。 男 外 也 可 参见 当时 的 报导 ,如 ;Columbia College School of Mines Quarterly 10 
(1889),238~255;]. Franklin Inst. 129(1890),300~306;The Electrical Engineer 12 
(November 11, 1891), 521 ~ 530;J. Amer. Statistical Assn. 2 (1891),330~ 341,4 
(1895),365;]J. Royal Statistical Soc. $55 (1892),326~ 327;Allgemeines statistisches 
Archiv 2(1892) ,78~126;]J. Soc. Statistique de Paris 33(1892),87~ 96;U.S. Patents 
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395781 (1889),685608 (1901),777209 (1904)。Hollerith 和 人 口 统计 局 另 一 名 职员 
James Powers 接着 又 创办 了 互相 竞争 的 公司 ,它们 最 终 分 别 成 为 [BM 和 Remington 
Rand 公司 的 一 部 分 。 

Hollerith 的 排序 机 当然 是 现在 数字 计算 机 中 基数 排序 方法 的 基础 。 他 的 专利 
提 到 ,两 列 数 值 项 的 排序 是 对 每 列 独立 进行 的 ,但 他 没有 说 是 否 应 当 首先 考虑 个 位 
列 或 者 十 位 列 。 

由 John K. Gore 在 1894 年 获得 的 编号 为 518240 的 专利 ,描述 了 用 于 对 于 卡片 
排序 的 另 一 台 早 期 的 机 器 , 它 提议 由 十 位 的 列 开始 。 使 用 个 位 列 的 不 明显 的 技巧 大 
概 首先 是 由 某 个 不 知名 的 机 器 操作 员 发 现 的 ,然后 传 给 其 他 人 (参见 5.2.5 小 节 ); 
它 出 现在 最 早期 流行 的 IBM 排序 机 手册 (1936 年 ) 中 。 这 个 目 右 至 左 技术 的 第 一 个 
已 知 的 出 处 是 在 Robert Feindler 所 写 的 一 本 书 Das Hollerith-Lochkarten-Verfahren 
(Berlin: Reimar Hobbing,1929) ,126 一 130 中 。 大 约 在 同一 时 间 ,上 L.J. Comrie 在 一 篇 
论文 Transactions of the Office Machinery Users ”Association (London:1929 一 1930 ) ， 
25 一 37 中 也 曾 提 到 。 很 偶然 地 ,Comrie 成 了 作出 重要 发 现 的 第 一 人 ,这 一 发 现 就 
是 , 制 表 机 最 初 尽管 是 为 统计 和 结算 而 设计 的 ,但 它们 可 以 有 效 地 用 于 科学 计算 中 。 
他 的 文章 特别 有 趣 ,因为 它 给 出 了 1930 年 在 英国 可 天 到 的 制 表 设 备 的 详细 描述 。 
那 时 的 排序 机 每 分 钟 处 理 300 一 400 张 卡片 ,而 且 可 以 以 每 月 9& 的 租金 出 租 。 

合并 的 思想 可 回 湖 到 另 一 部 卡片 滚动 机 器 :整理 机 ,这 是 一 项 晚 得 多 的 发 明 
(1938 年 )。 通 过 它 的 两 个 进 卡 站 ,可 以 在 仅仅 一 次 扫描 中 就 把 两 个 排 好 序 的 卡片 
合并 成 一 登 ; 完 成 此 项 工作 的 技术 ,在 第 一 本 IBM 整理 机 手册 (1939 年 4 月 ) 中 就 清 
楚 地 说 明了 [参见 James W .Bryce,U.S. Patent 2189024 (1940) |] 。 

随后 计算 机 走 到 了 前 台 ,而 且 终 于 把 排序 也 包括 在 其 发 展 过 程 当 中 。 事 实 上 有 
证 据 表明 ,排序 例 程 曾经 是 为 可 存储 程序 的 计算 机 编写 的 第 一 个 程序 。EDVAC 的 
设计 者 们 对 于 排序 特别 感 兴趣 ,因为 它 集中 体现 了 计算 机 潜在 的 非 数值 应 用 ;他 们 
认识 到 ,一 组 令 人 满意 的 指令 代码 ,不仅 应 有 能 力 表 达 用 于 解 差分 方程 的 程序 , 它 还 
必须 有 足够 的 灵活 性 来 处 理 算 法 中 的 组 合 “ 判 定 " 问 题 。 约 翰 ' 冯 ': 诺 依 曼 因此 于 
1945 年 编制 了 用 于 内 部 合并 排序 的 程序 ,为 的 是 检验 他 建议 的 EDVAC 计算 机 的 某 
些 指令 代码 的 适用 性 ;有 效 的 专用 排序 机 的 存在 ,提供 了 一 个 目 然 的 标准 ,通过 这 种 
标准 就 可 以 评价 他 所 提议 的 计算 机 组 织 的 优点 。 本 书 作 者 在 Computing Surveys 2 
(1970) ,247 一 260 一 文中 已 经 描述 了 这 一 有 趣 的 发 展 细 市 。 关 于 冯 : 庄 依 曼 对 最 初 
的 排序 程序 “ 润 饰 ”" 后 的 形式 ,可 参见 汉 ' 诺 依 曼 的 Collected Works 5 (New York: 
Macmillan,1963),196~214。 

在 德国 ,K.Zuse 于 1945 年 独立 编写 了 用 于 直接 插入 排序 的 一 个 程序 ,作为 他 
的 Plankalkul 语言 中 线性 列表 操作 的 最 简 例 子 之 一 (这 一 开创 性 的 工作 推迟 了 近 30 
年 才 发 表 ; 见 Berichte der Gesellschaft fir Mathematik und Datenverarbeitung 63 
(Bonn:1972),Part 4,84 一 85 。 

由 于 为 早期 计算 机 设计 的 内 存 容 量 是 很 有 限 的 ,所 以 很 自然 地 , 既 要 考虑 内 部 
排序 也 要 考虑 外 部 排序 。 由 称 尔 电子 工程 学 校 的 J.P.Eckert 和 J].W.Mauchly 所 撰 
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号 的 报告 “Progress Report on the EDVAC”(1945 年 9 月 30 日 ) 指 出 , 装 有 磁 线 或 磁 
帘 设 备 的 一 台 计 算 机 可 以 模拟 卡片 机 的 操作 ,达到 更 快 的 排序 速度 。 这 个 报告 描述 
了 平衡 的 两 路 基数 排序 ,以 及 平衡 的 两 路 合并 ( 称 为 “整理 ”) ,同时 使 用 4 个 磁 线 或 
磁带 机 ， 每 秒 至 少 读 或 写 5000 个 脉冲 ”。 

1946 年 在 穆 尔 学 校 举行 的 有 关 计 算 的 专题 讨论 会 上 ,John Mauchly 作 了 “排序 
和 整理 的 演讲 ,他 的 演讲 稿 是 第 一 个 公开 发 表 的 关于 计算 机 排序 的 讨论 [Theory 
and Techniques for the Design of Electronic Digital Computers, G.W .Patterson 主编 ,3 
(1946) ,22.1 一 22.20j。Mauchly 以 一 段 有 趣 的 话 来 开始 他 的 介绍 :“ 要 求 一 台 机 器 
把 计算 和 排序 的 能 力 结合 在 一 起 ,似乎 很 像 要 求 一 个 设备 既 能 用 作 开 瓶 器 ,又 能 用 
作 自 来 水 笔 “ 然 后 他 说 ,有 能 力 进行 复杂 的 数学 运算 的 机 器 必须 也 有 能 力 对 数据 排 
序 和 分 类 ,而 且 他 还 说 排序 甚至 在 数值 计算 中 也 会 有 用 。 他 描述 了 直接 插 人 和 二 又 
插入 ,说 明 前 一 种 方法 平均 使 用 大 约 N2/4 个 比较 ,而 后 一 种 方法 则 不 会 需要 多 于 
NlgN 个 比较 。 然 而 ,二 叉 插 入 需要 一 个 颇 为 复杂 的 数据 结构 ,他 接着 说 明 两 路 合 
并 仅仅 使 用 对 表 的 顺序 存 取 就 达到 了 同样 低 的 比较 次 数 。 他 的 演讲 稿 的 后 半 部 分 
专门 讨论 了 部 分 扫描 的 基数 排序 方法 , 即 模拟 4 条 磁带 上 的 数字 卡片 排序 ,同时 每 
位 数字 使 用 少 于 4 次 的 扫描 (参见 5.4.7 小 节 )。 

不 久 以 后 ,Eckert 和 Mauchly 创立 了 一 个 公司 ,这 个 公司 生产 了 一 些 最 早 的 电 
子 计 算 机 ,BINAC( 供 军事 应 用 ) 以 及 UNIVAC( 供 商业 应 用 )。 美 国人 口 统计 局 再 
次 在 其 上 发展 中 发 挥 了 作用 ,接受 了 第 一 台 UNIVAC。 这 时 ,还 完全 不 了 解 计算 机 在 
经 济 上 的 作用 ;用 计算 机 排序 可 以 比 卡片 机 快 ,但 它们 要 昂贵 得 多 。 因 此 ,由 
Frances EE. Holberton 领导 的 UNIVAC 程序 员 们 ,花费 相当 大 的 精力 设计 高 速 的 外 
部 排序 例 程 ,并 且 他 们 早期 的 程序 也 影响 了 硬件 的 设计 。 按 照 他 们 的 估计 ,在 UNI- 
VAC 上 一 亿 个 10 个 字 的 记录 可 以 在 9000h( 即 375 天 ) 之 内 完成 排序 。 

UNIVAC 工 正式 交 货 于 1951 年 7 月 , 它 的 内 存 为 有 1000 个 字 长 12 字符 (72 
位 ) 的 字 。 它 被 设计 成 以 每 秒 钟 500 个 字 的 速度 ,在 磁带 上 读 写 60 个 字 长 的 块 ;可 
以 同 前 或 癌 后 读 ,而 且 可 以 同时 进行 读 / 写 / 计 算 。1948 年 ,Holberton 夫人 想 出 了 一 
个 有 趣 的 方法 ,使 用 6 个 输入 缓冲 区 ,以 读 、 写 和 计算 的 完全 重 亚 来 进行 两 路 合并 : 
设 每 个 输入 文件 都 有 一 个 “当前 的 缓冲 区 ”和 两 个 “辅助 的 缓冲 区 ”, 有 可 能 以 这 样 一 
种 方式 来 进行 合并 , 即 每 当 输 出 一 个 块 时 ,两 个 当前 的 输入 缓冲 区 包含 着 总 共 恰 恰 
相当 一 个 块 的 未 处 理 的 记录 。 因 此 ,在 形成 每 个 输出 块 时 , 恰 有 一 个 输入 缓冲 区 变 
空 。 故 我 们 可 以 安排 成 ,在 所 有 时 刻 , 当 要 读 人 一 个 辅助 缓冲 区 时 ,4 个 辅助 缓冲 区 
中 的 为 外 3 个 都 是 满 的 。 这 个 方法 比 算法 5.4.6F 的 预报 方法 要 稍微 快 些 , 因 为 它 
不 需要 在 开始 下 一 个 输入 之 前 ,检查 已 输入 的 结果 [参见 “Collation Methods for the 
UNIVAC System (Eckert-Mauchly Computer Corp. ,1950) ,2 Volumes |。 

这 项 工作 的 顶峰 即 排序 生成 程序 , 它 是 自动 程序 设计 领域 中 研制 的 第 一 个 重要 
的 软件 例 程 。 用 户 指明 记录 的 大 小 、 每 个 记录 的 部 分 字段 中 最 多 5 个 键 码 的 位 置 以 
及 标记 文件 结束 的 哨兵 键 码 ,而 排序 生成 程序 将 为 一 卷 文件 产生 受 版 权 保护 的 排序 
程序 。 此 程序 的 第 一 遍 扫 描 是 使 用 比较 计数 (算法 5.2C) 的 60 字 块 的 一 个 内 部 排 
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序 ;然后 进行 一 些 平衡 的 两 路 合并 扫 撕 , 癌 后 读 , 以 及 避免 如 上 所 述 的 磁带 互 锁 [ 参 
见 “ Master Generating Routine for 2-way Sorting (Eckert-Mauchly Division of Re- 
mington Rand,1952) 。 这 个 报告 的 第 一 个 草稿 的 标题 为 ”Master Prefabrication Rou- 
tine for 2-way Collation”。 另 外 也 可 参见 F.E. Holberton 的 Symposium on Automatic 
Programming (Office of Naval Research,1954) ,34 一 39 | 。 

到 1952 年 左右 ,内 部 排序 的 许多 方法 已 在 程序 设计 领域 广 为 流 传 ,但 理论 上 的 
研究 却 相 对 很 少 。Daniel Goldenberg| “Time analyses of various methods of sorting 
data” ,Digital Computer Laboratory memo M-1680 (Mass. Inst. of Tach. ,17 October 
1952) ] 用 Whirlwind 计算 机 编写 了 5 个 不 同方 法 的 程序 ,并 对 每 个 程序 都 就 最 好 的 
情况 和 最 坏 的 情况 进行 了 分 析 。 当 对 100 个 具有 8 位 键 码 的 15 位 字 进 行 排序 时 ， 
他 发 现 最 快 的 方法 是 使 用 一 个 256 字 的 表 ,把 每 个 记录 存 人 对 应 于 它 的 键 码 的 惟一 
位 置 ,然后 压缩 这 份 表 。 但 这 项 技术 有 一 个 明显 的 缺点 ,因为 每 当 后 继 的 记录 有 和 相 
同 的 键 码 时 , 它 将 冲 掉 一 个 记录 。 他 所 分 析 的 其 它 4 种 方法 排列 如 下 :直接 两 路 合 
并 优 于 基数 2 排序 优 于 直接 选择 优 于 冒 泡 排序 。 

Goldenberg 的 结果 ,由 Harold H.Seward 在 他 1954 年 的 硕士 论文 [“Information 
sorting in the application of electronic digital computers to business operations” , Digital 
Computer Lab. report R-232(IMass. Inst.of Tech. ,24 May 1954;60 页 ) ] 中 作 了 推广 。 
Seward 引进 了 分 布 计数 和 替代 选择 的 思想 ;他 证 明 在 一 个 随机 排列 中 第 一 个 路 段 
的 平均 长 度 为 e-1; 而 且 他 分 析 了 在 磁带 上 以 及 在 各 种 类 型 的 海量 存储 设备 上 的 内 
部 排序 以 及 外 部 排序 。 

由 Howard B.Demuth 于 1956 撰写 的 博士 论文 (“Electronic Data Sorting” (Stan- 
ford University ,october 1956 年 10 月 ) ,92 页 ;TIEEE Trans. C-34 (198$) ,296 一 310 ) ， 
可 以 说 一 篇 非常 值得 关注 的 论文 ,因为 这 篇 论文 有 助 于 葛 定 计算 复杂 性 理论 的 基 
础 。 它 利用 循环 的 、 线 性 的 以 及 随机 存 取 的 存储 器 ,考虑 了 排序 问题 的 3 个 抽象 模 
型 ,并 对 每 个 模型 提出 了 最 优 的 或 接近 于 最 优 的 方法 (参见 习题 5.3.4-68)。 尽 管 
Demuth 的 论文 并 没有 立即 产生 实际 的 结果 ,但 它 却 建立 了 如 何 把 理论 同 实践 相 联 
系 的 重要 思想 。 

这 样 一 来 ,排序 的 历史 已 经 同 计算 中 的 许多 “第 一 ”紧密 地 联系 在 一 起 :第 一 个 
数据 处 理 机 响 ,第 一 个 可 存储 程序 ,第 一 个 软件 ,第 一 个 缓存 方法 ,第 一 个 进行 算法 
分 析 和 计算 复杂 性 分 析 。 

迄今 所 述 的 有 关 计 算 机 的 文献 ,实际 上 都 未 出 现在 “公开 的 著作 ”中 ;事实 上 , 计 
算 的 大 多 数 早期 的 历史 ,都 出 现在 比较 难以 得 到 的 报告 中 ,因为 在 那 时 仅 有 比较 少 
的 人 跟 计 算 机 打交道 。 有 关 排 序 文献 的 第 一 次 付 印 是 在 1955 年 一 1956 年 ,用 的 是 
3 篇 重要 的 综述 性 文章 。 

第 一 篇 综述 性 文章 由 J].C.Hosken 撰写 [Proc. Eastern Joint Computer Conference 
8 (1955),39 一 55]。 他 以 敏锐 的 观察 开始 :“ 为 降低 每 个 输出 单位 的 价格 ,人 们 通常 
都 在 增加 他 们 的 操作 规模 。 但 在 这 样 的 条 件 下 ,排序 的 单位 费用 ,不 是 降低 了 ,而 是 
增加 了 。"Hosken 综述 了 在 计算 机 上 进行 排序 的 方法 ,以 及 所 有 可 利用 的 现在 已 在 
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销售 的 专用 设备 。 他 的 54 项 参考 文献 目录 大 多 数 是 以 厂家 的 手册 为 基础 的 。 

E.H. Friend 的 内 容 丰 富 的 论文 Sorting on Electronic Computer Systems[LJACM 
3(1956),134 一 168], 是 排序 发 展 中 的 一 个 重要 里 程 碑 。 尽 管 自 1956 年 以 来 已 经 发 
展 了 许多 技术 ,但 这 篇 论文 在 许多 方面 直到 今天 仍然 值得 注意 。Friend 对 于 相当 多 
的 内 部 和 外 部 排序 算法 给 出 了 细致 的 描述 ,而 且 他 对 于 缓存 技术 和 磁带 机 的 特征 给 
以 特殊 的 关注 。 他 引进 了 某 些 新 的 方法 (例如 , 树 的 选择 ,两 头 蛇 排 序 以 及 预报 ) ,而 
且 展 示 了 较 早 方法 的 某 些 数学 性 质 。 

大 约 在 同一 个 时 间 里 出 现 的 第 三 篇 关于 排序 的 综述 性 文章 ,是 由 D. W. Davies 
[Proc. Inst. Elect. Engineers 103B ,Supplement 1(19$6) ,87 一 93] 撰 写 的 。 在 随后 数 
年 中 ,下 列 作者 也 发 表 了 许多 值得 关注 的 综述 :D.A. BelllComp.J. 1(1958),71~ 
77];A.S. Douglas[Comp.J. 2(19$9) ,1 一 9];D.D. McCracken ,HH. Weiss 以 及 T. Lee 
( 李 再 华 )[Programming Business Computers (New York:Wiley,1959), 第 15 章 ,298 
~332];I.FloresLJACM 8(1961),41~80|];K.E.Iverson[A Programming Language 
(New York:Wiley,1962) ,第 6 章 ,176 一 245];C.C.Gotlieb[CACM 6(1963),194~ 
201]:T.N.Hibbard[CACM 6(1963),206~213]; M.A.Goetz [Digital Computer Us- 
er s Handbook, M. Klerer 和 G. A. Korn 主编 (New York: McGraw-Hill,1967),1.10 
章 ,1.292 一 1.3201。1962 年 11 月 ACM 主持 召开 了 一 次 关于 排序 的 研讨 会 ;在 该 
会 上 宣读 的 大 多 数论 文 都 发 表 在 CACM 1963 年 $ 月 的 刊物 上 ,并且 它们 乃 是 当时 
技术 发 展 水 平 的 很 好 代表 。C.C. Gotlieb 关于 现代 排序 生成 程序 的 综述 ,T.N. Hib- 
bard 关于 极 小 存储 内 部 排序 的 综述 ,以 及 G.U.Hubbard 关于 人 磁盘 文件 排序 的 早期 
痢 析 ,都 是 这 个 文集 中 特别 值得 关注 的 文章 。 

在 整个 这 段 时 期 还 发 现 了 一 些 新 的 排序 方法 :地 址 计算 (1965 年 ), 合 并 插入 
(1959 年 ) ,基数 交换 (1959 年 ), 级 联合 并 (1959 年 ),Shell 排序 (1959 年 ), 多 阶段 合 
并 (1960 年 ), 树 插入 (1960 年 ) ,振荡 排序 (1962 年 ), Hoare 的 快速 排序 (1962 年 )， 
William 的 堆 排 序 (1964 年 ),Batcher 的 合并 交换 (1964 年 )。 在 本 章 特 定 小 节 中 ,在 
描述 方法 的 同时 已 经 追 述 了 每 个 算法 的 历史 。20 世纪 60 年 代 后 期 ,相应 的 理论 得 
到 了 深入 的 发 展 。 

当 最 初 写 本 章 时 ,作者 所 考察 的 有 关 排 序 所 有 论文 的 一 份 完整 参考 文献 ,是 在 
R.L.Rivest 的 帮助 下 编辑 的 ,出 现 于 Computing Reviews 13(1972) ,283 一 289 中 。 


未 来 发 展 ” 自 1970 年 以 来 ,已 有 数 十 个 排序 算法 被 发 明 出 来 ,尽管 几乎 所 有 的 
这 些 算法 都 是 早期 算法 的 变种 。 在 习题 5.2.2-30 的 答案 中 讨论 的 多 键 码 快速 排 
序 ,是 这 些 新 方法 中 的 一 个 出 色 例 子 。 

另外 一 个 趋势 ,迄今 主要 还 是 理论 上 的 ,是 研究 可 自 适应 的 排序 方案 。 即 在 这 
样 一 个 意义 下 ,按照 不 同 原则 , 当 输 入 已 经 很 趋 于 有 序 时 ,能够 保证 它们 运行 得 更 
快 。 请 参见 H. Mannila,IEEE Transactions C-34(1985) ,318 一 325;V. Estivill-Castro 
和 D. Wood,Computing Surveys 24(1992),441~ 476;C. Levcopoulos 和 O. Petersson, 
Journal of Algorithms 14(1993),395~413;A. Moffat,G. Eddy 和 O. Petersson ,Soft- 
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ware Practice & Experience 26(1996) ,781 一 797。 

当 开销 的 准则 发 生变 化 时 ,计算 机 硬件 的 改变 促进 了 关于 排序 算法 有 效 性 的 许 
多 有 趣 研究 。 例 如 ,习题 5.4.2-20 中 关于 虚拟 内 存 的 讨论 。A. LaMarca 和 及 .下 . 
Ladner 分 析 了 硬件 的 高 速 缓存 对 于 内 部 排序 的 影响 (SODA 8(1997) ,370 一 379 )。 
他 们 的 结论 之 一 是 ,在 现代 机 器 上 算法 5.2.2Q 的 步骤 Q9 是 一 个 不 好 的 想法 (尽管 
在 像 MIX 这 样 的 传统 计算 机 上 它 工 作 得 很 好 ): 应 代 之 以 直接 插入 排序 来 完成 快速 
排序 ,此 时 最 好 早 些 对 短 的 子 文件 进行 排序 ,因为 这 时 它们 的 关键 字 仍 然 在 高 速 组 
存 中 。 

当前 对 于 大 量 数 据 进 行 排 序 的 技术 其 发 展 水 平 又 如 何 呢 ? 自 1985 年 以 来 ,一 
个 普遍 的 标准 是 对 100 万 个 含 100 个 字符 的 记录 进行 排序 ,而 这 些 记 录 有 完全 随机 
的 10 字符 的 关键 字 。 输 入 和 输出 应 当 驻 留 在 磁盘 上 ,目标 是 极 小 化 总 的 消逝 的 时 
闻 ,包括 用 于 启动 程序 的 时 间 。R.C. Agarwal [SIGMOD Record 25,2(June 1996 ) ， 
. 240 一 246] 使 用 一 台 桌 面 RISC 计算 机 , 即 IBM RS/6000 型 39H ,对 被 分 片 到 8 个 磁 
盘 机 的 文件 实现 基数 排序 , 它 在 5.1s 内 完成 这 一 任务 。 输 入 /输出 是 主要 的 瓶颈 ; 确 
实 ,处 理 器 只 需要 0.6s 来 控制 实际 的 排序 ! 当 有 多 个 处 理 器 可 以 利用 时 ,甚至 可 以 
更 快 。 用 32 台 Ultra SPARC I 工 作 站 组 成 一 个 网 络 ,每 个 工作 站 有 两 个 内 部 的 磁 
盘 ,使 用 一 个 称 为 NOW-Sort 的 混合 方法 ,能 在 2.41s 内 对 100 万 个 记录 进行 排序 
[A.C. Arpaci-Dusseau, R. H. Arpaci-Dusseau, D. E. Culler, J. M. Hellerstein 和 D. A. 
Patterson ,SIGMOD Record 26,2(Junel1997),243~254|。 

这 样 一 些 进展 意味 着 百 万 个 记录 的 标准 变 成 主要 是 启动 和 关闭 时 间 的 一 个 测 
试 ,所 以 需要 更 大 的 数据 集合 以 给 出 更 有 意义 的 结果 。 例 如 ， 大 拉 字 节 排 序 101 
个 含有 100 个 字符 的 记录 一 一 现在 的 世界 纪录 是 2.5h。 它 是 由 一 个 具有 32 个 处 理 
器 的 Silicon Graphics Origin 2000 系统 在 1997 年 9 月 实现 的 ,其 中 每 个 处 理 器 有 
8GB 的 内 存 , 以 及 559 个 4GB 的 磁盘 。 这 个 记录 是 由 一 个 市 场 上 销售 的 称 为 
Neorarv 的 排序 程序 创造 的 , 它 是 由 C. Nyberg,C. Koester 以 及 本 .Gray 使 用 尚未 公开 
的 方法 编写 的 。 

也 许 有 一 天 太 拉 字 节 也 会 被 认为 是 太 小 的 标准 。 一 个 标准 要 想 永 远 有 效 , 目 前 
的 候选 者 就 是 分 钟 排序 : 即 在 60s 之 内 可 以 对 多 少 个 100 字符 的 记录 进行 排序 ?在 
本 书 付 印 时 ,对 于 这 一 任务 当前 记录 的 保持 者 是 NOW-Sort:1997 年 3 月 30 日 ,95 
个 工作 站 只 需 59.21s 就 把 90.25 百 万 个 记录 排 好 了 序 。 但 是 现今 的 方法 并 没有 真 
正 提高 速度 的 根本 极限 。 

总 之 ,今天 有 效 排 序 的 问题 仍然 和 它 曾 经 有 过 的 一 样 ,是 一 个 迷人 的 问题 。 


习题 


1.[05] 试 通过 叙述 定理 5.4.6A 的 一 个 推广 ,来 总 结 这 一 章 的 内 容 。 

2.[20] 基于 表 1 中 的 信息 ,对 于 6 位 数 的 键 码 ,什么 是 MIX 计算 机 上 最 好 的 表 排 序 方法 ? 
3.[37] (在 极 小 存储 中 的 稳定 排序 ) 我 们 说 一 个 排序 算法 需要 极 小 的 存储 空间 ,如 
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果 除 了 存储 N 个 记录 所 需 的 空间 外 , 它 的 变量 仅 使 用 O((logzN)) 位 存储 空间 。 
这 个 算法 在 下 列 意义 下 必须 是 通用 的 , 即 必 须 对 所 有 的 N 都 有 效 , 而 不 仅仅 对 一 个 
具体 的 N 值 有 效 , 其 中 假定 当 实际 调用 这 个 算法 来 进行 排序 时 ,已 经 有 充分 数量 的 
随机 存 取 内 存 可 资 利 用 。 

我 们 已 经 研究 过 的 许多 排序 方法 ,都 违背 了 这 个 极 小 存储 的 要 求 ; 特 别 是 ,使 用 
N 个 链接 字段 是 禁止 的 ,快速 排序 (算法 5.2.2Q) 满 足 极 小 存储 要 求 ,但 它 最 坏 情况 
的 运行 时 间 竟 同 N 成 正比 。 堆 排序 (算法 5.2.3H) 是 我 们 所 研究 过 的 惟一 使 用 极 
小 存储 O(Nlogy NN ) 的 算法 ,尽管 利用 习题 5.2.4-18 的 思想 ,还 可 描述 另 一 个 这 样 的 
算法 。 

我 们 前 面 所 研究 的 、 以 一 种 稳定 的 方针 对 键 码 排序 的 、 最 快 的 一 般 算法 是 表 合 
并 排序 (算法 5.2.4L), 但 它 不 使 用 极 小 存储 。 事 实 上 ,我 们 已 经 见 到 的 稳定 的 极 小 
存储 排序 算法 都 是 Q(N?“) 的 方法 (直接 插入 , 冒 泡 排 序 以 及 直接 选择 的 一 种 变种 )。 

试 设计 一 个 稳定 的 极 小 存储 排序 算法 , 它 在 最 坏 的 情况 下 仅 需 O(N (logN)“) 
个 时 间 单 位 [提示 :有 可 能 在 O(NlogN) 个 时 间 单 位 内 进行 稳定 的 极 小 存储 合并 ] 。 

4.[28]j 如 果 一 个 排序 算法 完全 通过 比较 键 码 来 做 决定 ,而 且 它 从 来 不 做 这 样 
一 个 比较 , 即 此 比较 的 结果 可 以 通过 以 前 比较 的 结果 预测 出 来 , 则 这 样 一 个 排序 算 
法 称 为 是 言 忆 的。 问 表 1 中 列 出 的 方法 中 哪些 是 音 冀 的 ? 

5.[46] 排序 具有 许多 相等 键 码 的 非 随机 数据 , 比 排序 完全 随机 的 数据 要 困难 
得 多 。 试 设计 一 个 排序 标准 使 得 :(i) 它 现在 是 有 效 的 ,而 且 从 现在 起 大 概 100 年 后 
仍然 是 有 效 的 ;(ii) 它 不 包括 完全 随机 的 键 码 ; (iii) 它 不 使 用 随时 间 而 改变 的 数据 
集 。 


I shall have accomplished my purpose if I have sorted and put in logical order 
the gist of the great volume of material which has been generated about sorting 
over the past few years. 

将 过 去 者 干 第 得 到 的 关于 排序 的 大 量 材 料 

的 要 上 纪 分 好 类 排 好 序 之 日 ,也 有 即 十 我 的 目标 实现 之 肝 。 

— J.C.HOSKEN(1955) 
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Let s look at the record 
让 我 们 来 查看 这 个 记录 。 
-一 一 AL Smith(1928) 


这 一 章 可 以 给 以 更 大 的 标题 “信息 的 存储 和 检索 ” ;为 一 方面 , 它 也 可 以 简单 地 
称 做 “ 查 表 ”。 我 们 关心 的 是 在 一 台 计 算 机 的 存储 中 收集 信息 的 过 程 ,以 及 随后 尽 可 
能 快 地 进行 对 该 信息 的 检索 。 有 时 ,我 们 面 对 比 我 们 实际 需要 的 还 要 多 的 数据 , 因 
此 最 明智 的 办 法 是 把 这 些 数据 的 大 部 分 忘掉 或 销毁 ;但 在 其 它 情 况 下 ,重要 的 是 ,要 
以 能 进行 快速 检索 的 方式 保留 和 组 织 给 定 的 数据 。 

这 一 章 大 部 分 篇 幅 都 致力 于 人 研究 一 个 非常 简单 的 查找 问题 :怎样 根据 某 种 确定 
的 标记 来 找 出 存储 好 的 数据 。 例 如 ,在 一 个 数值 应 用 中 ,给 定 了 x 和 一 张 f 和 值 表 后 
要 求 f(z); 在 一 个 非 数 值 应 用 中 ,可 能 要 找 一 个 给 定 的 俄 文 单字 的 英语 翻译 。 

一 般 说 来 ,我 们 将 假设 , N 个 记录 的 一 个 集合 已 经 存储 好 ,问题 是 要 找 出 所 要 的 
记录 。 如 同 排序 那样 ,假定 每 个 记录 都 包括 称 为 它 的 键 码 的 一 个 特殊 字段 , 取 这 个 
名 字 也 许 是 因为 许多 人 每 天 都 要 花 很 多 时 间 来 找 他 们 的 钥匙 。 一 般 我 们 都 要 求 N 
个 键 码 互 不 相同 ,以 便 每 一 个 键 码 惟一 地 标识 它 的 记录 。 所 有 记录 的 集合 称 为 一 份 
表 或 一 个 文件 ,“ 表 ”在 这 里 通常 用 来 表示 一 个 小 文件 ,而 “文件 ”通常 用 来 表示 一 个 
大 的 表 。 一 个 大 的 文件 或 一 组 文件 经 常 称 做 一 个 数据 库 。 

查找 算法 中 有 一 个 变 元 K ,问题 是 要 寻找 以 为 其 键 码 的 那 一 个 记录 。 在 查 
找 完成 之 后 ,有 两 种 可 能 性 :或 者 这 个 查找 是 成 功 的 ,已 找到 含有 KK 的 惟一 记录 ,或 
者 是 不 成 功 的 ,已 确定 K 无 处 可 找 。 在 不 成 功 的 查找 之 后 ,有 时 希望 送 人 包含 开 
的 一 个 新 记录 到 这 份 表 中 ,做 这 项 工作 的 方法 称 为 查找 和 插入 算法 。 名 叫 “ 联 想 存 
储 " 的 某 些 硬 件 设备 ,以 模拟 人 脑 功能 的 方式 自动 地 解决 查找 的 问题 ;而 我 们 将 研究 
在 一 部 通常 的 通用 计算 机 上 来 进行 查找 的 一 些 技术 。 

尽管 查找 的 目标 是 寻找 存储 在 同 K 相关 联 的 记录 中 的 信息 ,但 这 一 章 中 的 算 
法 一 般 都 忽略 除 键 码 本 身 以 外 的 一 切 。 实 际 上 ,一 旦 我 们 定 出 的 地 址 , 便 可 找 出 
相关 联 的 数据 ;例如 ,如 果 K 出 现在 TABLE + i 的 位 置 中 , 则 相关 联 的 数据 (或 指向 
该 数据 的 一 个 指针 ) 可 在 单元 TABLE + i+1 中 ,或 在 单元 DATA+ i 中等。 因此 ,找到 
KK 之 后 ,不 妨 把 应 该 做 什么 等 细节 都 忽略 掉 。 

查找 是 许多 程序 中 最 消耗 时 间 的 一 部 分 ,因而 用 一 个 好 的 查找 方法 来 奉 代 一 个 
坏 的 方法 ,常常 会 使 运行 速度 大 大 提高 。 事 实 上 ,我 们 通常 能 把 数据 或 数据 结构 安 
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排 好 ,可 完全 免 去 查找 ,确保 我 们 知道 上 哪儿 去 找 我 们 需要 的 信息 。 链 接 存储 是 实 
现 这 一 点 的 常用 的 方法 。 例 如 ,使 用 双重 链接 表 就 不 必 查 找 一 个 给 定 项 的 前 驱 或 后 
继 。 如 果 人 允许 我 们 自由 地 选择 键 码 , 则 是 查找 的 另 一 个 方法 ,因为 我 们 也 可 以 令 诸 
键 码 为 数 |1,2,…,N|; 于 是 包含 K 的 记录 就 可 简单 地 放置 在 单元 TABLE + K 中 。 
在 2.2.3 小节 讨论 的 拓扑 排序 算法 中 ,这 两 项 技术 都 曾 被 用 来 消除 查找 。 然 而 ,如 
果 拓 扑 排序 算法 中 的 对 象 是 符号 名 而 不 是 数 ,仍然 需要 查找 。 在 实践 中 用 于 查找 的 
有 效 算法 变 得 十 分 重要 的 。 

查找 方法 可 用 若干 种 方式 分 类 。 我 们 可 以 把 它们 分 为 内 部 查找 和 外 部 查找 ,如 
同 把 第 5 章 的 排序 算法 分 为 内 部 排序 和 外 部 排序 一 样 。 或 者 可 以 把 查找 方法 分 为 
静态 查找 和 动态 查找 ,其 中 “静态 ” 指 的 是 表 的 内 容 实 际 上 不 变 ( 可 以 使 查找 时 间 减 
少 到 最 小 而 不 考虑 建立 表 所 需要 的 时 间 ), 而 “动态 " 指 的 是 这 个 表 经 常 要 受到 插入 
或 许 删除 的 影响 。 第 三 种 可 能 的 方案 是 ,按照 查找 方法 是 以 键 码 之 间 的 比较 为 基础 
还 是 以 键 码 的 数字 性 质 为 基础 来 分 类 ,就 像 用 比较 进行 排序 和 用 分 布 进行 排序 之 间 
的 区 别 那样 。 最 后 ,我 们 还 可 以 根据 使 用 实际 的 键 码 还 是 使 用 变换 了 的 键 码 来 对 查 
找 方法 分 类 。 

这 一 章 的 组 织 ,实质 上 是 后 两 种 分 类 方式 的 综合 。6.1 节 考 虑 查找 的 “ 便 找 ”的 
顺序 查找 的 方法 ,6.2 节 讨 论 了 一 种 改进 的 方法 , 它 以 键 码 之 间 的 比较 为 基础 ,根据 
字母 或 数字 的 顺序 作出 判断 ;6.3 节 讨 论 数 字 查 找 ;6.4 节 讨 论 一 类 重要 的 方法 , 称 
做 散 列 技术 , 它 是 以 实际 键 码 的 算术 变换 为 基础 的 。 每 一 节 都 在 静态 和 动态 两 种 情 
况 下 , 既 讨 论 内 部 查找 也 讨论 外 部 查找 ;并 且 每 节 都 指出 各 种 算法 的 相对 优点 和 缺 
点 。 

查找 和 排序 通常 是 彼此 紧密 相关 的 。 例 如 ,考虑 以 下 的 问题 : 纷 定 两 组 数 A = 
aiyaz ,Qam| 和 B= op 确定 是 否 ASB。 这 本 身 提示 了 三 种 解 , 即 : 

1. 顺 序 地 把 每 个 a; 同 诸 6b 作 比较 直到 找到 一 个 相同 的 为 止 。 

2. 把 诸 a 和 诸 2 排序 ,然后 作 通 过 这 两 个 文件 的 一 个 序列 , 校 验 适当 的 条 件 。 

3. 把 诸 6b 记 入 一 个 表 中 ,然后 查找 每 一 个 a;。 

上 述 每 一 种 解法 ,在 m 和 值 的 不 同 范 围 内 都 是 有 吸引 力 的 。 对 于 某 个 常数 
c1; 解 1 将 花费 大 约 cmn 个 时 间 单 位 ,而 对 于 某 个 (更 大 的 ) 常 数 c,, 解 2 将 花费 大 
约 cA(m lg m+n lg 7) 个 时 间 单 位 ,对 于 某 个 (仍然 很 大 的 ) 常 数 cs 和 c4 ,使 用 一 个 
适当 的 散 列 方法 , 解 3 将 花费 大 约 cym + csn 个 时 间 单 位 。 由 此 得 出 ,对 于 很 小 的 
m 和 nn, 解 1 是 好 的 ,但 当 mx 和 nn 增 大 时 , 解 2 很 快 将 变 成 更 好 。 最 后 , 解 3 变 成 可 
取 的 ,直到 nn 超过 了 内 存 大 小 为 止 ,然后 , 解 2 往往 又 变 得 优越 ,至 到 nn 变 得 非常 大 
为 止 。 于 是 我 们 有 这 样 一 种 情况 :排序 有 时 是 查找 的 一 个 好 替换 ,而 查找 有 时 又 是 
排序 的 一 个 好 替换 。 

更 复杂 的 查找 问题 通常 都 可 以 归结 成 这 里 所 考虑 的 较 简 单 的 情况 。 例 如 ,假设 
键 码 可 以 是 稍 有 拼 错 的 字 ; 而 可 能 要 在 忽略 这 种 错误 的 情况 下 仍 能 找到 正确 的 记 
录 。 如 果 我 们 作 一 个 文件 的 两 个 副本 ,一 个 副本 中 键 码 以 通常 的 字母 顺序 出 现 , 另 

* 367 ， 


第 6 章 查找 


一 个 则 按 字母 从 右 到 左 排 好 (好 像 单词 是 倒 过 来 拼 那 样 ) , 则 拼 错 的 查找 变 元 大 概 将 
同 这 两 个 文件 之 一 中 的 一 个 项 一 致 到 它 长 度 的 一 半 或 一 半 以 上 。 因 此 6.2 节 和 6.3 
节 的 查找 方法 可 被 用 来 寻找 大 概 想 要 的 键 码 。 

一 个 有 关 的 问题 已 受到 了 相当 大 的 注意 , 它 联系 到 飞机 票 预约 系统 及 与 人 名 有 
关 的 其 它 应 用 ,在 这 些 应 用 中 ,经常 有 可 能 由 于 拙劣 的 手写 或 声音 传输 而 拼 错 名 字 。 
目标 是 要 把 变 元 转换 成 某 个 代码 ,这 个 代码 有 助 于 把 同一 名 字 的 所 有 变形 都 转换 成 
同一 形式 。 下 述 的 “探测 "(Soundex) 方 法 ,最 初 是 由 Margaret K.Odell 和 Robert C. 
Russell 提出 的 。[ 参 见 U.S. Patents 1261167(1918),1435663(1922)。] 它 常常 用 来 对 
姓氏 编码 : 

1 .保留 名 字 的 头 一 个 字母 ,并 且 省 略 在 其 余 位 置 中 出 现 的 所 有 a,e,h,i,o,u,w,， 


yo 
2. 把 下 列 数字 赋 给 头 一 个 字母 之 后 的 剩余 的 字母 
b,{f,p,v—>1 l]—>4 
cyg,j,k,gq,s,x,z 一 2 m,n™*5 
d,t™>3 TO 


3. 如 果 具 有 相同 代码 的 两 个 或 多 个 字母 在 原来 的 名 字 ( 在 步骤 1 前 ) 中 相 邻 ,或 
者 除开 干扰 诸 h 和 诸 W 之 外 相 邻 , 则 省 略 除 头 一 个 以 外 的 所 有 字母 。 

4. 通 过 增加 尾部 零 ( 如 果 少 于 三 个 数字 ) ,或 者 省 略 最 右边 的 数字 (如 果 有 三 个 
以 上 的 数字 ) ,转换 成 “字母 ,数字 ,数字 ,数字 ”的 形式 。 

例如 ,Euler, Gauss, Hilbert, Knuth, Lloyd, Lukasiewicz 以 及 Wachs 这 些 名 字 的 
代码 分 别 是 E460,G200,H416,K530,L300,L222,W200。 当 然 , 这 个 系统 会 把 有 些 
不 同 的 名 字 或 类 似 的 名 字 变 成 同一 形式 ; Ellery, Ghosh, Heibronn, Kant, Liddy， 
Lissajous 以 及 Waugh 就 得 到 同样 的 七 个 代码 。 另 一 方面 ,一 些 有 关 的 名 字 , 如 
Rogers 和 Rodgers,Sinclair 和 St. Clair,Tchebysheff 和 Chebyshev, 则 仍 保持 互 异 。 但 
总 的 说 来 ,Soundex 代码 大 大 地 增加 了 在 伪装 的 代码 中 找 出 名 字 的 机 会 。[ 更 多 的 介 
绍 ,参考 C. P. Bourne 和 D.F. Ford, JACM 8 (1961) ,3$38 一 $$2; Leon Davidson, 
CACM 5(1962),169~171; Federa!l Population Censuses 1790 一 1890(Washington D. 
C. : National Archives,1971 ) ,90。| 

当 使 用 像 Soundex 这 样 的 方案 时 ,不 必 放 弃 所 有 键 码 都 不 同 这 样 的 假定 ;我 们 
可 以 造 出 具有 等 价 代码 的 所 有 记录 的 表 组 ,把 每 一 个 表 当 成 一 个 单位 来 处 理 。 

大 型 数据 库 势 必 使 检索 过 程 更 为 复杂 ,因为 人 们 通常 要 把 每 个 记录 的 许多 不 同 
的 字段 都 当 作 可 能 的 键 码 , 当 只 知道 部 分 键 码 信息 时 ,也 有 能 力 来 定 出 项 目的 位 置 。 
例如 ,给 定 关 于 戏剧 演员 的 一 个 大 文件 ,舞台 监督 可 能 希望 找 出 25 岁 到 35 岁 之 间 ， 
具有 跳舞 天 才 和 法 国 口音 的 所 有 还 没有 角色 的 女 演员 ;给 定 人 垒球 统计 的 一 个 大 文 
件 ,一 个 体育 专栏 作家 可 能 希望 确定 1964 年 在 进行 晚 场 比赛 的 第 七 个 回合 ,对 抗 左 
手 投 手 时 芝加哥 的 White Sox 跑 出 的 总 分 数 。 给 定 关 于 任何 事情 的 一 个 大 型 数据 
文件 后 ,人们 会 任意 地 提出 复杂 的 问题 。 确 实 ,我们 可 以 把 整个 图 书馆 看 成 一 个 数 
据 库 ,而 查找 者 可 能 要 和 寻 道 已 发 表 的 有 关 情 报 检 索 的 每 份 资料 。 在 下 面 的 6.5 市 
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中 ,将 介绍 用 于 此 类 辅助 键 码 (多 重 属 性 ) 检 索 问 题 的 技术 。 

在 对 查找 进行 详细 研究 之 前 ,有 必要 回顾 一 下 历史 。 在 计算 机 出 现 以 前 ,就 编 
辑 出 版 了 对 数 表 、 三 角 函 数 表 等 许多 书 ,使 得 数学 计算 可 为 查 表 所 人 代替。 最后, 这些 
表 被 眷 写 到 穿孔 卡片 上 ,并 用 于 同 整理 机 、 排 序 机 以 及 拷贝 穿孔 机 相 联 系 的 科学 问 
题 中 。 但 一 旦 出 现 了 存储 程序 的 计算 机 ,很 显然 :每 次 重新 计算 logz 或 cosz 比 在 
一 张 表 中 查 出 答案 要 更 合算 些 。 

尽管 在 计算 机 出 现 伊始 ,排序 问题 就 受到 了 相当 大 的 关注 ,但 是 对 于 查找 的 算 
法 ,工作 却 做 得 比较 少 。 由 于 内 存 小 和 只 有 磁带 这 样 的 顺序 介质 能 用 来 存储 大 型 文 
件 ,因此 查找 要 么 极为 容易 ,要 么 几乎 不 可 能 。 

但 是 自 20 世纪 350 年 代 起 , 越 来 越 大 的 随机 存 取 存 储 器 的 发 展 , 最 终 导 致 了 这 
样 一 个 认识 , 即 查找 就 其 本 身 的 性 质 而 言 是 一 个 有 趣 的 问题 。 在 抱怨 了 好 几 年 早期 
计算 机 的 空间 局 限 性 之 后 ,程序 员 们 突然 面 对 着 非常 大 的 内 存 容量 ,以 致 不 知道 如 
何 有 效 使 用 它 。 

关于 查找 问题 最 初 的 一 些 综述 文章 如 下 :A.I.Dumey,Computers 和 Automation 
$s,12(1956 年 12 月 ),6~9;W. W. Peterson, IBM J. Research & Development 1 
(1957),130~146;A.D. Booth,Information and Control 1(1958),159~164;A.S. 
Douglas,Comp.J. 2(1959) ,1 一 9。 后 来 ,下 面 文章 对 查找 问题 进行 了 更 广泛 的 讨论 : 
Kenneth E. Iverson ,A _ Programming Language (New York:Wiley,1962),133~158, 
和 Werner Buchholz ,TBM Systems J. 2(1963) ,86 一 111。 

如 我 们 将 要 看 到 的 ,在 20 世纪 60 年 代 初 期 ,引进 了 许多 有 趣 的 新 的 基于 树 结 
构 的 查找 方法 ;而 关于 查找 的 研究 现在 仍然 活跃 地 开展 着 。 


6.1 顺序 查找 


“从 起 点 开始 往 下 查 ,直到 找到 了 正确 的 键 码 为 止 ; 然 后 停止 。 这 个 顺序 过 程 
是 进行 查找 的 明显 方法 ,这 个 方法 也 构成 了 我 们 讨论 查找 问题 的 一 个 有 用 的 起 点 ， 
因为 许多 更 错综复杂 的 算法 都 是 以 它 为 基础 的 。 我 们 将 看 到 ,顺序 查找 除了 简单 之 
外 ,还 包含 了 某 些 非常 有 趣 的 思想 。 

这 个 算法 可 以 更 精确 地 阐述 如 下 。 


算法 S (上 顺序 查找 ) 给 定 其 键 码 分 别 为 Ki ,KK ，…,KN 的 记录 Ri1, Rs,,*… ,RN 
的 一 个 表 ,这 个 算法 查找 一 个 给 定 的 变 元 到 ,假定 N 宇 1。 

S$S1.[ 初 始 化 ] 置 ;<1。 

S2.[ 比 较 ] 如 果 KK= K;, 则 此 算法 成 功 地 结束 。 

$3.[ 前 进 ] i 增加 1。 

S$S4. [文件 结尾 ?] 如 果 i 二 NN, 则 返回 S2。 否 则 此 算法 以 失败 告终 。 1 


注意 ,这 个 算法 可 以 以 两 种 不 同 的 方式 结束 , 即 成 功 (已 定 出 所 需 键 码 的 位 置 )， 
或 不 成 功 ( 已 证 实 给 定 的 变 元 不 在 该 表 中 )。 这 一 章 中 大 多 数 其 余 的 算法 都 同样 如 
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成 功 失败 
图 1 顺序 查找 或 “ 逐 字 ”查找 
此 。 
一 个 MIX 程序 可 立即 写 出 来 。 
程序 S (顺序 查找 ) 假定 K; 出 现 于 单元 KEY+ i 中 ,记录 R; 的 剩余 部 分 出 现 
在 单元 INF0+ i 中 ,下 列 程序 使 用 rA 二 K ,rI1 二 i 一 N。 


01 START LDA K 1 S$S1. 初 娘 化 

02 ENT1 1—N 1 i<—l 

03 2H CMPA KEY + N,1 C S2. 比 菊 

04 JE SUCCESS C 如 果 KK = K,, 转 出 

05 INC1 1 C-35S 9S3. 前 进 

06 J1NP 2B C-S 5S4. 文 件 结 属 ? 

07 FAILURE EQU x 1-S 如 果 不 在 表 中 , 则 转 出 


现在 ,在 单元 SUCCESS 处 指令 “LDA INEO + N,1? 将 把 所 需 信 息 带 到 rA 中 。] 


对 这 个 程序 的 分 析 很 直截了当 ; 它 表 明 算 法 S 的 运行 时 间 依 赖 于 两 个 因素 
C = 键 码 比较 的 次 数 ; (1) 
S = 1, 如 果 成 功 ;0, 如 果 不 成 功 。 
程序 S 花费 5C-2S+3 个 时 间 单 位 。 如 果 这 个 查找 成 功 地 找到 开 = K,, 则 有 C= 
i，,S=1; 因 此 总 的 时 间 为 (5i +1)u。 另 一 方面 ,如 果 查 找 不 成 功 , 则 有 C=N,S = 
0 ,总 的 时 间 为 (5N +3)u。 如 果 每 个 输入 键 码 都 以 相同 的 概率 出 现 , 则 在 一 次 成 功 
的 查找 中 ,C 的 平均 值 将 是 
1+2+.…+N N+l 
. NN 7 (2) 
当然 标准 差 肯 定 相 当 大 , 约 为 0.289NN( 见 习题 1)。 
上 述 算法 所 有 程序 员 都 熟悉 ,但 是 ,很 少 有 人 知道 , 它 并 不 总 是 进行 顺序 查找 的 
正确 方式 ! 只 要 作 一 些 直接 修改 就 会 使 这 个 方法 更 快 ,除非 记录 表 很 短 。 
算法 Q( 快 速 顺序 查找 ) 这 个 算法 和 算法 S 相 同 ,惟一 的 区 别 是 它 假定 在 这 个 
文件 的 结尾 存在 一 个 “虚拟 ”记录 RN+1o0o 
Q1. [初始化 ] 置 i<-1, 并 置 Ki < 一 天。 
Q2. [比较 ] 如 果 KK= kK,, 转 到 Q4。 
Q3.[ 前 进 ] i 增加 1, 并 返回 Q2。 
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Q4.[ 文 件 结尾 ?] 如 果 i 过 NN , 则 算法 成 功 地 结束 ;否则 以 失败 告终 (i= N+ 
1)。| 


程序 Q (快速 顺序 查找 ) rA 三 K ,rll=i1 一 六 。 








01 START LDA K 1 Q1. 初始 化 

02 STA KEY+N+1 1 Kv+i—K 

03 ENT1 -NT 1 i<—0 

04 INC1 1 C+1-S Q3. 有 前进 

05 CMPA KEY + N,1 C+1-S Q2. 比较 

06 JNE x 一 2 C+1-S 如 果 K, 关 K 转 到 Q3 
07 J1NP SUCCESS 1 Q4. 文件 结尾 ? 

08 FAILURE EQU x 1-—S 若 不 在 表 中 则 转 出 1 


用 量 C 和 S 来 分 析 程 序 S, 运 行 时 间 已 减少 到 (4C 一 4S + 10)w; 在 一 个 成 功 的 
检索 中 每 当 C 之 6 时 ,或 者 在 一 个 不 成 功 的 检索 中 ,每 当 N 宇 8 时 它 都 是 一 个 改进 。 

从 算法 S 到 算法 Q 的 过 渡 利 用 了 一 个 重要 的 “加 速 "原理 : 当 程序 中 的 一 个 内 循 
环 要 测试 两 个 或 多 个 条 件 时 , 则 应 该 力图 将 测试 减少 为 只 有 一 个 条 件 。 

另 一 项 技术 将 使 程序 Q 还 要 快 。 


程序 Q (更 快 的 顺序 查找 ) rA 三 K ,rll 二 1 一 NN。 





01 START LDA K 1 Q1. 初始 化 

02 STA KEY+N+1 1 Kvy+1<—K 

03 ENT1 -1-N 1 i<——1 

04 INC1 2 1(C-S+2)/21 Q3. 前进 ( 两 步 ) 

05 CMPA KEY + N,1 [1(C-S+2)/2」 Q2. 比 榴 

06 JE 4F LCC-St+t2)/2」 若 开 = 开 则 转 到 Q4 

07 CMPA KEY+N+1,1 L[(C-S+1)/2」 Q2. 比 较 ( 第 二 个 ) 

08 JNE 3B L(C-S+1)/2」 如 果 了 关 K;+i 则 转 
到 Q3 

09 INC1 1 (C—S)mod?2 i 前 进 

10 4H JiNP € SUCCESS 1 Q4. 文件 入 尾 ? 

11 FAILURE EQU x 1—S 如 不 在 表 中 则 转 出 | 


内 循环 已 被 重复 ;这 避免 了 大 约 一 半 的 “i<-i+1" 指 令 , 所 以 它 使 运行 时 间 减 少 


3.5C—3.5S+10+ 


个 单位 。 当 正 被 查找 的 是 很 大 的 表 时 ,我们 已 经 节省 了 程序 S 运行 时 间 的 30%; 许 
多 现存 的 程度 都 能 以 这 种 方式 改进 。 同 样 的 方法 适用 于 高 级 语言 的 编程 。| 例 如 ， 
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参考 D.E. Knuth(Computing Surveys )6(1974),266~269| 
如 果 我 们 知道 键 码 是 递增 次 序 的 , 则 应 稍微 改变 一 下 算法 。 


算法 TT (在 有 序 表 中 顺序 查找 ) 给 定 一 个 其 键 码 为 递增 次 序 Kj < K,<…< 
Kn 的 记录 Ri1,R,,… ,RN 的 表 , 这 个 算法 查找 一 个 给 定 的 变 元 K。 为 了 方便 ,和 快 
捷 , 本 算法 假定 有 一 个 键 码 值 为 Kn ;1= % >K 的 虚拟 记录 Rw,1。 

Tl1. [初始 化 ] 置 i<1。 

T2.[ 比 较 ] 如 果 KK 三 K,;, 转 到 T4。 

T3.[ 前 进 ] i 加 1, 并 返回 T2。 

T4. [相等 ?] 如 果 K = K;, 则 此 算法 成 功 地 终止 ,否则 , 它 以 失败 告终 。 | 


如 果 所 有 的 输入 键 码 都 是 同等 可 能 的 , 则 当 查 找 成 功 时 ,这 个 算法 所 花 的 时 间 
实质 上 和 算法 Q 的 平均 运行 时 间 相 同 。 但 当 查 找 不 成 功 时 它 比 算法 Q 快 大 约 两 
倍 ,因为 该 算法 可 以 更 快 地 确定 一 个 记录 不 存在 。 

上 述 每 一 种 算法 都 使 用 下 标 表 示 表 的 项 。 借 助 于 下 标 来 描述 这 些 方法 是 很 方 
便 的 ,但 是 同样 的 查找 过 程 也 可 用 于 一 个 使 用 链 式 表示 的 表 中 ,这 是 因为 数据 是 被 
顺序 地 遍历 的 (见习 题 2、3 和 4)。 


存 取 频率 ”至今 我 们 一 直 假 定 每 个 变 元 都 以 同样 频率 出 现 。 这 并 不 总 是 一 个 
现实 的 假定 ;一 般 情况 下 , 键 码 K; 将 以 概率 p; 出 现 , 其 中 ,pi ++ PpP2+***+ pn=16o 
为 进行 一 个 成 功 的 查找 所 需要 的 时 间 实 际 上 同比 较 的 次 数 C 成 正比 , C 的 平均 值 
为 


CN = pi1+2p2+ + Npw (3) 
奇 我 们 能 以 任意 想 要 的 次 序 把 记录 放置 到 表 中 , 则 当 
Pi1 宇 p; 宇 … 之 pw (4) 


时 , 即 当 最 经 和 常 使 用 的 记录 出 现在 接近 开始 处 时 量 CN 最 小 。 
现在 让 我 们 考虑 奉 干 概率 分 布 ,以 了 解 当 诸 记 录 以 (4) 中 所 确定 的 “最 优 ” 方 式 
排列 时 ,可 能 节省 多 少时 间 ? 若 pi1= ps=…= pn=1/N, 则 公式 (3) 简 化 为 Cn = 
(N+1)/2; 我 们 已 经 在 等 式 (2) 中 导出 这 个 值 。 男 一 方面 ,假设 
1 1 1 1 
P1301P2 = 4 PN 7 HIN- DN 7 HN (5) 
则 由 习题 7,Cw=2-2 六; 若 诸 记 录 在 表 中 以 正确 的 次 序 出 现 , 则 对 于 这 个 分 布 , 比 
较 的 平均 数 小 于 2。 
为 一 个 可 供 考察 的 概率 分 布 是 
pi= Ne, p> = (No-1)c, '*, pv=c 
其 中 
c= 2/N(N+1) (6) 
这 个 “ 棉 形 的 "分 布 不 像 (5) 那 样 厉 害 地 偏离 一 致 分 布 。 在 这 种 情况 下 ,我 们 发 现 
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Cy = cy AN+1I-A = 全 (7) 
即 此 种 最 优 排 列 比 起 诸 记 录 以 随机 顺序 出 现时 节省 了 大 约 三 分 之 一 的 查找 时 间 。 
当然 ,(5) 和 (6) 中 的 概率 分 布 是 相当 人 为 的 ,因而 它们 可 能 不 是 现实 的 非常 好 
的 近似 。 一 个 更 为 典型 的 分 布 是 “Zipf( 吉 甫 ) 定 律 ” 
pi = cll,p; = c/2,…,pn = c/N, 其 中 c= 1/Hw (8) 
这 个 分 布 是 由 G.K. Zipf 得 到 的 。 他 发 现在 用 自然 语言 写 的 文章 中 第 ”个 最 常用 
的 单字 似乎 近似 地 以 与 1/n 成 正比 的 概率 出 现 [ 参 考 The Psycho-Biology of Lan- 
guage (Boston, Mass. : Houghton Mifflin,1935);Human Behavior and the Principle of 
Least Ftffort (Reading, Mass: Addison - Wesley,1949)]。 他 发 现 当 大 城市 按 递减 人 
口 数 排列 时 ,人 口 统计 表 中 也 有 同样 的 现象 。 如 果 吉 甫 定律 适用 于 一 个 表 中 键 码 的 
频率 , 则 我 们 立即 有 
CN = N/ Hay (9) 


查找 这 样 一 个 文件 大 约 比 查找 按 随机 次 序 排列 记录 的 同一 文件 快 闻 InN 信 。 


[参考 A.D. Booth,L. Brandwood 以 及 J.P. Cleave,Mechanical Resolution of Lin- 
guistic Problems (New York:Academic Press,19S8) ,79。 
对 于 现实 分 布 的 另 一 个 近似 ,是 在 商业 应 用 中 已 被 普遍 地 观察 到 的 “80-20” 佑 
计 规 则 [参考 W.P. Heising,IBM System J. 2(1963) ,114 一 11$]。 这 个 规则 指出 ， 
80% 的 事务 涉及 文件 最 常用 的 20% ;而 对 这 20% 适用 同样 的 规则 , 则 使 得 64% 的 事 
务 涉及 最 活跃 的 4% ,等 等 ,换言之 
+t p+ +p.20n 
.80 ”对 所 及 n (10) 


当 nn 是 5 的 倍数 时 ,恰好 满足 这 个 规则 的 一 个 分 布 是 


p1=c, p= (2 ~ 1)c, ps = (39 ~ 2)c,…., pn= (Ni*-(N—1))c 
(11) 
其 中 
c= 1/N, 0 = 8.80 0 1386 (12) 
log. 20 


因为 在 这 种 情况 下 ,对 于 所 有 的 nn,pi+ p2+… 十 p, = cn*。 要 分 析 (11) 中 的 概率 不 
太 容 易 ;然而 ,由 于 我 们 有 ns 一 (nn 一 1)*= 0n9-1(1+ O(1/n)), 所 以 有 一 个 更 简单 
的 近似 满足 80-20 规则 的 分 布 , 即 

p1 = cj , p2 = cj， pn = cI/N! 1, 其 中 c= 1/HnY 9) (13) 
如 前 ,这 里 0= log 80/log 20, 且 巨 入 是 阶 为 * 的 第 N 个 调和 数 , 即 1-*+2-*+，… 二 
N “。 注 意 , 这 个 概率 分 布 非常 类 似 于 Zipf 定律 (8); 当 0 从 1 变 成 0 时 ,这 个 概率 
分 布 从 一 个 一 致 分 布 变 成 一 个 Zipf 分 布 。 应 用 (3) 到 (13) 得 出 


Cs = Hy /Hy = ON 


1-0 和 
FF + O(N ™"’) 过 T0.122N (14) 
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作为 关于 80-20 定律 的 平均 比较 数 ( 见 习题 8)。 

由 EE.S.Schwartz 进行 的 单字 频率 的 研究 [参考 JACM 10 (1963) ,422 页 上 有 趣 
的 图 ] ,提示 磁带 有 稍微 负 的 6 值 的 分 布 (13) 给 出 比 Zipf 规则 (8) 对 数据 更 好 的 适 
合 ,在 这 种 情况 下 , 当 N 一 时 均值 


Cw 


比 (9) 要 小 得 多 。 

类 似 (11) 和 (13) 的 分 布 , 首 先是 由 Vilfredo Pateto 在 同 个 人 收入 和 对 财富 的 不 
一 致 性 相关 联 中 研究 的 [参考 Cours dEconomie Politiqgue 2 (Lausanne: Rouge, 1897), 
304 一 312]。 如 果 pi 与 第 & 个 最 富有 的 人 的 财富 成 比例 , 当 z= ps/pn 时 一 个 人 的 
财富 超过 或 等 于 最 穷 的 人 的 z 信 的 概率 是 &/N 。 因 此, 当 p= chk? 1! 和 z=(k/IN) 1 
时 所 述 的 概率 是 z- 14 4。 现在 把 这 叫做 磁带 有 参数 1/(1 一 9) 的 Pareto 分 布 。 

奇怪 的 是 ,Pareto 不 理解 他 目 己 的 分 布 ;他 相信 ,接近 于 0 的 一 个 0 值 要 比 接近 
于 1 的 6 全 对 应 于 更 平等 的 社会 ! 他 的 错误 是 由 Corrado Gini 改正 的 [参考 At 
della J Riunione della Societa Ttaliana per il Progresso delle Scienze (1910 ) ,在 
Memorie di Metodologia Statistical (Rome:195$$) ,3 一 120 重印 ]。 他 是 第 一 个 陈述 和 
阐释 像 80-20 定律 (10) 的 比 的 重要 性 的 人 。 人 们 仍然 倾向 于 误解 这 样 的 分 布 ; 他 们 
通常 谈 到 “75 - 25 定律 "或 “90 - 10 定律 ”, 就 好 像 仅 当 a +65=100 时 ,a -6&5 定律 才 
有 意义 ,而 (12) 表 明 ,80+20 的 和 是 十 分 无 所 谓 的 。 

类 似 于 (11) 和 (13) 的 为 一 个 离散 分 布 是 由 G. Udny Yule 在 假定 各 种 进化 模型 
时 ,研究 作为 时 间 艺 数 的 生物 品种 的 增加 时 引进 的 [参考 Philos. Trans. B213 
(1924) ,21 一 87]。 当 0<2 时 ,Yule 的 分 布 适用 : 


入 JI1+4 
(1+0)¢(1—0) 





十 ON (15) 





人 
(N - 1)!ec 本 
2 | 


当 0=0 或 02=1 时 极限 值 c=L/BAN 或 c=JLN。 


一 个 “ 自 组 织 ” 的 文件 上 述 对 于 概率 的 计算 看 起 来 挺 不 错 ,但 是 在 大 多 数 情况 

下 并 不 知道 概率 是 多 少 。 我 们 可 以 在 每 个 记录 中 建立 一 个 计数 需 来 记 住 它 被 存 取 

的 次 数 , 在 这 些 计数 的 基础 上 重新 分 配 记录 ;上 边 导出 的 公式 告诉 我 们 ,这 个 过 程 遂 

常 能 节省 不 少 运 行 时 间 。 但 是 或 许 我 们 不 想 提供 那么 多 的 存储 空间 来 作 计数 字段 ， 

因为 通过 利用 在 这 一 章 稍 后 将 要 说 明 的 非 顺序 查找 技术 ,我 们 可 以 更 好 地 利用 内 
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存 。 

有 一 种 简单 的 方案 ,可 用 来 把 各 记录 按 一 种 相当 好 的 次 序 存 放 而 无 需 使 用 附加 

的 计数 字段 。 尽 管 并 不 知道 这 个 方案 的 来 源 , 但 它 已 经 使 用 多 年 了 :每 当 一 个 记录 

被 成 功 地 定 址 时 , 便 把 它 移 到 表 的 开头 。 

这 个 “ 自 组 织 ” 技 术 的 思想 背景 是 , 当 需 要 查找 常用 的 项 目 时 ,应 在 相当 接近 于 

表 的 开头 处 找到 它们 。 著 假定 N 个 键 码 分 别 以 概率 |2i, za ,bw 出现, 而 每 次 

查找 又 完全 独立 于 先前 的 查找 , 则 可 以 证 明 , 在 这 样 一 个 自 组 织 的 文件 中 为 寻 道 一 
个 项 目 所 需要 的 比较 的 平均 数 趋 于 极限 值 

CN = 1+ 2 二、 二 = 3 + 了 二 (17) 

(见习 题 11)。 例 如 , 若 当 1i 志 N 时 有 p;=1/N, 则 自 组 织 表 总 是 以 完全 随机 的 次 

序 出 现 , 且 这 个 公式 简化 为 上 面 所 熟悉 的 公式 (N +1)/2。 一 般 , 比 较 的 平均 数 (17) 


总 是 小 于 最 优 值 (3) 的 两 倍 ,因为 Cy 三 1+2 >, (1 -1)p;=2Cn 一 1。 事 实 上 ,Cw 


总 是 小 于 r/2 乘 最 优 值 CN[ 参 考 Chung, Hajela, 和 Seymour,J. Comp Syst Sci, 36 
(1988) ,148 一 157] ;一般 ,这 个 比 是 最 好 的 常数 ,因为 当 如 和 1/ 产 成 正比 时 , 它 是 接 
近 的 。 

现在 让 我 们 看 看 当 键 码 的 概率 服从 Zipf 定律 (8) 时 , 自 组 织 过 程 的 效果 如 何 。 
由 等 式 1.2.7-(8) 和 1.2.7-(3) ,我 们 有 





~ 1 (cli)(cly) _1 1 
CN 三 方士 。 一 二 一 十 - - 一 
. 2 1<i,j<N cfi+ cj 2 “| 2 十 7 
1 N 1 2N N 
2 十 C (Huy,; H.,) 一 2 十 c OH, 2c > HH, 一 
i=1 1 一 上 f 一 
广 + (QON+IDH -2N-2(N+1)Hy+2N) = 
5+e(N In4-InN+toOo))2NiigN (18 ) 


当 N 相当 大 时 ,这 比 广 N 要 好 得 多 ,而 且 它 仅仅 为 最 优 排列 中 所 得 到 比较 次 数 的 大 


约 ln 41.386 倍 ; 参 见 (9)。 
有 关 实 际 编译 程序 符号 表 的 计算 经 验 指出 , 自 组 织 方法 的 效果 甚至 比 我 们 的 公 
式 所 预料 的 更 好 ,因为 逐次 的 查找 并 不 是 独立 的 (小 批 的 键 码 趋 向 于 成 串 出 现 )。 
John McCabe[Operations Research 13 (196$) ,609 一 618] 首 先 分 析 了 这 个 自 组 
织 方 案 ,他 建立 了 (17)。McCabe 还 介绍 了 另 一 个 有 趣 的 方案 ,其 中 每 个 成 功 地 找到 
的 .已 不 在 表 开 头 的 关键 字 , 只 是 简单 地 与 前 面 的 键 码 互 换 , 而 不 是 总 被 移 到 前 端 。 
他 猜想 ,假定 是 独立 查找 ,这 一 方法 的 极限 平均 查找 时 间 决 不 超过 (17)。 事 实 上 ,后 
来 Ronald L. Rivest 证 明 ,除了 当 六 委 2 时 或 当 所 有 非 零 概率 都 相等 之 外 (这 是 当然 
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的 ), 此 换 位 方法 严格 地 使 用 比 移 至 脑 头 方法 要 少 的 比较 [CACM 19 (1976) ,63 一 
67]。 然 而 ,对 渐 近 极限 的 收敛 要 比 移 问 前 并 的 磁带 启发 式 的 查找 要 惕 得 多 ,所 以 除 
非 这 一 过 程 被 拖延 ,否则 移 向 前 端的 方法 更 好 ,[J.R.Bitner SICOMP 8 (1979) ,82 一 
110]。 况 且 ,J.L. Bentley,C.C.McGeoch,D.D. Sleator 和 R.E.Tarian 已 经 证 明 ,给 
定 对 于 数据 的 任何 访问 序列 一 一 即使 算法 知道 未 来 , 移 向 前 端的 方法 决 不 会 做 比 任 
何 关 于 线性 表 的 算法 所 作 的 内 存 访 问 总 数 超出 四 倍 的 内 存 访问 ;频率 计数 和 交换 位 
置 方法 就 没有 这 个 属性 [CACM 28 (1985) 202 一 208, 404 一 4111。 有 关 由 R. 
Bachrach 和 R.El Yaniv 所 作 的 关于 自 组 织 表 多 于 40 种 的 带 启发 式 查找 的 有 趣 的 
经 验 研究 ,参见 SODA 8 (1997) 53 一 62。 


对 于 不 等 长 记录 的 磁带 查找 ”现在 让 我 们 把 问题 提升 到 一 个 新 的 难度 :假设 正 
在 查找 的 表 存 储 在 磁带 上 ,并 旦 个 别 记 录 有 可 变 的 长 度 。 例 如 ,在 一 个 旧式 的 操作 
系统 中 ,“ 系 统 库 磁带 ”就 是 这 样 一 个 文件 ;标准 的 系统 程序 ,诸如 编译 程序 、 汇 编程 
序 、 装 入 程序 、 报 告 生 成 程序 等 ,都 是 这 条 磁带 上 的 “记录 ” ,而 大 多 数 用 户 作 业 一 开 
始 就 要 从 头 至 尾 查 找 此 磁带 ,直到 读 入 适当 的 程序 为 止 。 这 种 体制 使 我 们 以 前 对 算 
法 S 的 分 析 已 不 适用 。 因 为 步骤 S3 在 每 次 执行 时 所 花费 的 时 间 是 变化 的 。 因 此 ， 
比较 次 数 并 不 是 惟一 重要 的 准则 。 

设 L; 是 记录 R; 的 长 度 ,p; 是 记录 被 找到 的 概率 , 则 这 个 查找 方法 的 平均 运行 
时 间 近 似 地 同 

piLi+ pa(Lit L2)+ :+ pn(Lit+L2>+L3+:"* + Ln) (19) 

成 正比 。 当 Li=L2=…=Lw=l 时 ,此 式 简化 为 (3) ,这 是 已 经 研究 过 了 的 情况 。 

把 最 经 常 需要 的 记录 放 在 磁带 的 开头 好 像 是 合乎 逻辑 的 ;但 有 时 这 却 是 个 坏 主 
意 ! 例如 ,假定 磁带 仅 包 含 两 个 程序 A 和 B; 对 A 的 需要 是 对 B 的 需要 的 两 倍 , 而 


A 的 长 度 却 是 B 的 四 倍 。 于 是 ,N =2, pA = 伺 ,LA=4, pp = 方 ,Ls=1。 如 果 首 先 


把 A 放 在 磁带 上 ,按照 上 面 所 述 “ 合 逻辑 的 "原理 , 则 平均 运行 时 间 是 要 .4 + 二:5 = 


二 ;但 如 果 使 用 一 个 “不 合 逻辑 "的 想法 ,首先 放置 B , 则 平均 运行 时 间 就 被 减少 到 


1 ， 2 ._11 
3'1+t3'373.° 


在 库 磁 带 上 程序 的 最 优 排列 可 以 确定 如 下 : 
定理 S$ 设 工 ;和 Pp; 定义 如 上 , 则 当 且 仪 当 
pilLi 宕 ps/L; 2 pnlLy (20) 

肝 表 中 记录 的 排列 为 最 优 。 换 言 之 , 当 且 仅 当 (20) 成 立时 ,对 于 11,2,…,N| 的 所 有 
排列 aia2**ans pa Lo + pa La + La,) + + pa, (La + + La ) 的 极 小 值 等 于 
(19)。 

证 明 假设 R, 和 RR, ,| 在 磁带 上 互 换 ; 则 代价 (19) 就 从 
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+ pLit e+ Lt Li)+ piri(Lit t+ Lr1) + 
变 成 piri(Lit + Lt Ln) + pi(Lit + Lr)+ 
纯 变 化 为 p;Liy1 一 pir1iL;。 因 此 ,如 果 p;/L;< piri/Li+1; 则 这 样 一 个 交换 将 改进 
平均 运行 时 间 ,因而 给 定 的 排列 就 不 是 最 优 的 。 由 此 得 出 ,(20) 在 任何 最 优 的 排列 
中 成 立 。 

反之 ,假定 (20) 成 立 ;我 们 需要 证 明 排 列 是 最 优 的 。 刚 才 给 出 的 论证 表明 ,这 个 
排列 是 “局 部 地 最 优 的 ”, 其 意义 是 交换 相 邻 元 素 不 会 导致 改进 ;但 可 以 设想 有 一 个 
长 的 复 林 的 交换 序列 , 它 导出 一 个 更 好 的 “全 局 优化 ”。 我 们 将 考虑 两 个 证 明 ,一 个 
证 明 使 用 计算 机 科学 ,一 个 使 用 一 个 数学 技巧 。 

第 一 个 证 明 假定 (20) 成 立 。 我 们 知道 ,通过 相 邻 记录 的 一 系列 交换 ,记录 的 
任何 排列 可 以 被 排 成 次 序 RiR2…RNe。 每 次 交换 都 对 某 个 i<j 以 …RiR… 代 蔡 … 
RiRi ,所 以 它 使 查找 时 间 减 少 了 非 负 量 piLj - pjL;。 因 此 次 序 Ri1R,… RN 必定 有 
极 小 的 查找 时 间 。 

第 二 个 证 明 把 每 个 概率 p; 代 之 以 

p:(e) 一 p+e—(d+e+t+ + ad)N (21) 
其 中 。 是 极其 小 的 正 数 。 当 。 充分 小 时 , 决 不 可 能 有 zipi(e) +… + znpn(e)= 
y1P1(O+t 十 ynpn(e) ,除非 zi=y ,zn = yr; 特别 是 ,等 式 在 (20) 中 将 不 成 立 。 
现在 考虑 记录 的 NI 个 排列 ;至 少 其 中 有 一 个 是 最 优 的 , 且 知 道 它 满足 (20); 但 是 由 
于 没有 等 式 , 故 仅 有 一 个 排列 满足 (20)。 因 此 只 要 * 充分 小 ,(20) 就 惟一 地 表征 了 
概率 为 2i(e) 的 表 中 诸 记 录 的 最 优 排列 。 由 连续 性 , 当 e 被 置 为 0 时 ,同一 排列 必然 
也 是 最 优 的 (在 与 组 合 最 优化 有 关 的 问题 中 ,这 种 “ 解 结 ” 类 型 的 证 明 通 常 是 有 用 
的 )。 | 


定理 S 是 由 W.E.Smith 在 “Naval Research Logistics Quarterly 3(1956) ,59~66 
中 给 出 的 。 下 面 的 习题 包含 了 有 关 最 优 文件 安排 进一步 的 结果 。 


习题 


1. | M20」 当 所 有 的 查找 键 码 都 有 相同 的 查找 概率 时 ,在 对 一 个 有 NN 个 记录 的 表 进 行 成 功 的 
顺序 查找 中 ,所 作 比 较 次 数 的 标准 差 是 多 少 ? 

2.L15」] 利用 链接 存储 记号 代替 下 标记 号 ,重新 叙述 算法 S 的 诸 步骤 (如 果 了 P 指向 表 中 的 一 个 
记录 , 则 假定 KEY(P) 是 键 码 , INFO(P) 是 相关 的 信息 ,并 假定 LINK(P) 是 指向 下 一 个 记录 的 指针 ， 
FIRST 指向 头 一 个 记录 ,最 后 的 记录 指向 A)。 

3.[16] 写 出 习题 2 中 算法 的 一 个 MIX 程序 。 如 果 用 (1) 中 的 量 C 和 S 来 表达 ,你 的 程序 运行 
时 间 是 多 少 ? 

》4.[17] 算法 Q 的 思想 是 否 可 不 用 下 标记 号 而 用 链接 存储 记号 实现 (参见 习题 2)? 

5.[20] 当 C 很 大 时 ,程序 Q' 当然 比 程序 Q 快 得 多 。 但 是 否 有 任何 小 的 C 和 S 值 ,使 程序 

Q 实际 上 比 程序 Q 花 的 时 间 多 ? 
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6.[20j] 对 程序 Q 添加 三 条 以 上 的 指令 ,使 它 的 运行 时 间 减 少 到 大 约 (3.33C+ 常数 )x。 

7.[M20] 试 利用 “二 进 的 "概率 分 布 (5) 计 算 比 较 的 平均 数 (3)。 
8.[ RM22] 当 z 关 1 时 , 试 求 2 一 co 时 五 名 的 一 个 渐 近 级 数 。 

入 9.[ M28 ] 正文 指出 , 当 0<0<1 时 ,由 (11)、(13) 和 (16) 给 出 的 概率 分 布 大 致 是 相等 的 ,而 且 


利用 (13) 的 平均 比较 数 是 -和 N+ O(N!-?)。 


0+1 
a) 当 使 用 (11) 的 概率 时 ,平均 比较 数 是 否 也 等 于 
0 
giv 十 O(N'™ 0) 


b)(16) 等 于 多 少 ? 

c) 当 90<0 时 ,(11) 和 (16) 如 何 同 (13) 进 行 比 较 ? 

10.[ M201 (4) 确 定 了 在 一 个 顺序 表 中 诸 记 录 最 好 的 排列 ;什么 是 最 坏 的 排列 ? 证 明 在 最 坏 
的 排列 中 的 平均 比较 数 与 最 好 的 排列 中 的 平均 比较 数 的 简单 关系 。 

11. 本 题 的 目的 是 分 析 通 过 移 向 前 问 的 磁带 局 发 式 查 找 的 一 个 自 组 织 文件 的 极限 特性 。 首 先 
我 们 需要 定义 一 些 记号 : 设 f(zx1,z2，… ,zm) 是 所 有 人 不同 的 有 序 积 zx; zx; … zi 的 无 穷 和 ,其 中 


1 入 1,… , Sm 且 每 个 zi T2399 都 出 现在 每 一 项 中 。 例如 


PP(zy) = Dririy(z +t y) + yiz(z + y)*) = 


j,k>0 








XY ( 1 1 | 
十 
1-z-y\l1l-xz 1 一 y 
给 定 n 个 变量 {x ,x,,… ,xz,| 的 集合 和, 令 
1 
Pa= 2 farlz st ); Qom = Te 
lI&j < i en ™ lS&j < < Sn Ti i 


例如 ,Pa = fo(zxi,T2)+ f(xis rT3) + f(x,73), Qa =1(1l- zx- rx)+l(l-zr- rz)+1 
(1 一 x2 一 3)。 我 们 约定 置 Pio = Qi,o=1。 
a) 假 定 正文 中 的 自 组 织 文件 已 以 概率 p; 响应 对 项 目 R; 的 需求 ,在 这 个 系统 运行 了 很 长 一 段 
时 间 之 后 , 试 证 R; 将 以 极限 概率 p;P(N- (0m-yj) 成 为 从 前 端 起 的 第 m 个 项 目 ,其 中 
X= {pi pits Pir ,PN | 
b) 对 m=1,2,… ,把 (a) 的 结果 加 起 来 ,我 们 就 得 到 恒等式 
Pan + Patn-l) + + pro = Qn 
由 此 证 明 


nm+l n—m+m 
Pm + 1 Pr(m-1) 二 "十 Pn0 一 Qom 
nm 


一 1 
Q,， — 人 | JQmn +t +- D"| Qo 二 Pi 


c) 计 算 R, 与 表 前 端的 极限 平均 距离 dg = ,1 mpiPin- (wm-1); 然 后 求 值 
CN 三 > pa 
12.[ M23] 当 查 找 键 码 有 二 进 概 率 分 布 (5) 时 ,用 (17) 计 算 为 查找 自 组 织 文件 所 需要 的 比较 
平均 数 。 
13.[M27] 用 (17) 计 算 棉 形 概率 分 布 (6) 的 Cn。 
14.[ M21 ] 给 定 两 个 实数 序列 \ziyzz，…za2 和 (yi ya 为) 什么 样 的 下 标 排 列 alaz… 
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a 将 使 ixiys 成 为 极 大 ? 什么 样 的 成 为 极 小 ? 

115.[ AM22 ] 前 文 指出 , 当 仅 寻 到 一 个 程序 时 ,怎样 在 一 条 “系统 库 磁 带 " 上 最 优 地 安排 诸 程 序 。 
但 对 于 一 条 子 程序 库 磁带 ,使 用 另 一 组 假定 更 为 适合 ,因为 我 们 希望 从 这 条 磁带 把 一 个 用 户 程 序 
中 调用 的 诸 子 程序 一 起 都 装 入 用 户 程序 中 。 

对 于 这 种 情况 ,我 们 假定 和 需要 子 程序 ; 的 概率 是 PP ,而 不 论 是 否 需要 其 它 子 程序 。 例 如 全 然 
不 需要 任何 子 程序 的 概率 是 (1- P1)(1 一 P，)…(1 一 Pw); 而 查找 恰 在 装 入 第 j 个 子 程序 之 后 结束 
的 概率 是 P(1- P;,1)…(1 一 Pry)。 如 果 工 ; 是 子 程序 j 的 长 度 , 则 平均 的 查找 时 间 实 质 上 将 同 

LiPi(1— P)…(1- Py) + (Li + LL2)P(1 — P3)*…(1 — Pr) + 
+ (Li+L,+*Ly)Pnw 
成 正比 。 在 这 些 假定 下 , 子 程序 在 磁带 上 的 最 优 排列 是 什么 ? 

16.[ M22] H.Riesel 我 们 通常 需要 测试 :是 否 给 定 的 ”个 条 件 同时 全 部 为 真 (例如 ,我 们 可 
能 要 测试 是 否 z >0 和 >y<=z 两 者 都 成 立 ,而 且 首 先 应 测试 哪 一 个 条 件 并 不 是 一 目 了 然 的 )。 假 
设 花 费 了 个 时 间 单 位 测试 条 件 7 ,而 该 条 件 为 真 的 概率 是 p,, 且 同 所 有 其 它 条 件 的 结果 无 关 。 试 
问 我 们 应 在 什么 顺序 下 来 进行 测试 ? 

17.[ M23 ](W.E. Smith) 假设 你 要 做 2 个 作业 ,第 7) 个 作业 花费 万 个 时 间 单 位 , 且 截 止 时 间 
为 D;。 换 言 之 ,第 j 个 作业 应 该 在 至 多 过 了 D, 个 时 间 单 位 之 后 完成 。 试 问 为 处 理 这 些 作 业 , 什 
么 样 的 调度 a1a,…a, 将 使 极 大 的 延迟 

max(T, - Do ,Ta + Tao -DT + To t+" + Ts - D,)? 
极 小 化 ? 一 

18.[M30] (连接 查找 ) 假定 N 个 记录 被 放置 在 一 个 线性 数组 R,… RN 中 ,记录 R; 被 查找 
的 概率 为 p;。 若 每 次 查找 都 在 刚才 离开 处 开始 , 则 这 个 查找 过 程 称 为 “连接 的 "。 如 果 诸 连续 的 查 
找 都 是 独立 的 , 则 所 需 的 平均 时 间 为 <;,j<wpipya(i,j), 其 中 4d(i,j) 表 示 从 位 置 i 处 开始 并 在 
位 置 ; 处 结束 的 一 次 查找 所 需 的 时 间 。 者 4(i,j) 为 从 圆柱 面 i 扫 视 到 圆柱 面 ) 所 需 的 时 间 , 则 这 
个 模型 可 应 用 到 例如 磁盘 文件 的 寻 道 时 间 上 。 

本 题 的 目的 是 每 当 di ,7 是 |i -7 的 一 个 递增 函数 时 , 即 每 当 对 于 4d1 < d;<… < dn-1, 我 
们 有 ad(i,j;)= 4di;- ,| 时 ,(do 的 值 没有 关系 ) ,来 表征 连接 查找 诸 记 录 的 最 优 设 置 。 

在 这 种 情况 下 ,证 明 在 所 有 NI! 个 排列 当中 ,各 记录 被 最 优 排列 的 充分 必要 条 件 是 pl 三 pn 三 
力 委 bN -II 委 … 委 四 UN2+1 或 者 pN 委 加 委 轴 -1 委 加 委 … 和 安放 N21o (这 样 ,概率 的 一 种 “管风琴 " 排 
列 是 最 好 的 ,如 图 2 所 示 )。 提 示 : 对 于 m 宇 0,k>0,N=2R+ m+1 考虑 任 一 排列 ,其 中 概率 分 
别 为 g1q2… qssre…r2ritit2…tm。。 证 明 者 重新 排列 gl g2 ages “727121…tm; 则 效果 更 好 ,其 
中 oa = 二 min(gi,7i),7i 二 max(gi,7i) ,除非 对 所 有 i,g; = q; 和 ri; =x;, 或 对 所 有 i,j,qi =ri,r7i = 
q; 和 z= 二 0。 当 ;不 出 现 且 N=2k+m 时 亦 然 。 

19.[ M20 1]( 继 续 习 题 18) 当 函 数 4(i,;) 有 这 样 一 个 性 质 ; 即 对 于 所 有 i 了 7 ,ad(i,j)t+4ad(j， 
i)=c 时 ,什么 是 连接 查找 的 最 优 排列 ? [例如 , 当 我 们 不 知道 查找 的 适当 方向 时 ,在 没有 回 读 能 
力 的 磁带 上 就 出 现 这 种 情况 。 比 如 ,对 于 i<j, 我 们 有 ,ad(i,j)=a+b(Lii1+…+L;) 和 4d(j,i) 
=a+pb(Liii+…+Ln)+r+spLi+…+Li), 其 中 ,> 为 重 绕 时 间 。] 

20.[ M28 j (继续 习题 18) 对 于 di1<d,<…, 当 函数 4d(i,j)=min(4d|; id iD) 时 ,什么 
是 连接 查找 的 最 优 排 列 ? [例如 :在 两 路 链接 的 循环 表 中 ,或 者 在 一 个 两 路 移 位 寄存 器 的 存储 设备 
上 就 出 现 这 种 情况 。] 
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p, p> Pn 


图 2 概率 的 “管风琴 排列 "使 一 个 连接 查找 的 平均 寻找 时 间 极 小 化 
21.[ M28 ] 考虑 一 个 n 维 立 方 体 , 其 顶点 坐标 为 (4d1,…,4,), 且 d;=0 或 1; 两 个 有 一 坐标 不 
同 的 顶点 称 为 相 邻 的 。 假 设 有 27” 个 数 zo 委 zi 委 …… 委 zi 的 一 个 集合 ,以 使 二; ;| zz; 一 工 , | 成 为 
极 小 这 样 一 种 方式 , 赋 于 2" 个 顶点 ,其 中 的 求 和 是 对 于 所 有 的 i 和 j; 进行 的 ,而 且 要 使 x; 和 xz 是 
赋 给 相 邻 顶点 的 两 个 数 。 试 证 明 : 若 对 所 有 7 ,zi 都 被 赋 给 一 个 这 样 的 顶点 ,该 顶点 坐标 的 二 进 表 
示 恰 为 , 则 达到 上 述 极 小 值 。 

22.[20] 假设 你 要 查找 一 个 大 型 文件 ,不 是 查找 相等 的 ,而 是 找 出 最 接近 于 一 个 给 定 键 码 的 
1000 个 记录 。 最 接近 的 意义 是 :对 于 某 个 给 定 的 距离 函数 4 ,这 1000 个 记录 的 4&(K;,K) 值 为 最 
小 。 试 问 对 于 这 样 一 个 顺序 查找 ,什么 数据 结构 最 为 适合 ? 

Attempt the end;and never stand to doubt; 

Nothing s so hard, but search wit find it out. 

尝试 家 穷尽 ,学 途 乡 狐 夷 ; 天 下 无 难事 , 探 罕 将 鲍 解 。 
一 一 ROBERT HERRICK Seeke and finde (1648) 


6.2 通过 键 码 比较 进行 查找 


在 这 一 节 中 ,我 们 将 讨论 以 键 码 的 一 个 线性 次 序 ,例如 ,以 字母 顺序 或 数值 顺序 
为 基础 的 查找 方法 。 在 对 给 定 的 变 元 K 和 表 中 的 一 个 键 码 K, 进行 比较 之 后 ,分别 
取决 于 K<K;,K= K, 或 K>K,, 这 个 查找 以 三 种 不 同 的 方式 继续 。6.1 节 的 顺序 
查找 方法 实际 上 局 限于 两 路 判断 (K = K; 和 K 关 K;)。 但 如 果 我 们 摆脱 顺序 存 取 的 
限制 ,就 可 以 有 效 地 利用 一 个 次 序 关 系 。 


6.2.1 查找 一 个 有 序 的 表 


如 采 某 人 递 给 你 一 本 大 电话 短 , 而 且 请 你 找 一 个 人 的 名 字 , 此 人 的 电话 号 码 是 
795 一 6841, 那 你 该 做 什么 呢 ?” 处 理 这 个 问题 ,没有 比 6.1 节 的 顺序 方法 更 好 的 方法 
了 。( 是 的 ,你 可 以 尝试 拨 这 个 号 码 并 且 同 回话 者 谈 ; 或 者 你 可 能 知道 如 何 找 到 以 号 
码 而 不 是 以 名 字 排 序 的 一 本 特殊 的 电话 簿 。) 问 题 在 于 通过 当事者 的 名 字 而 不 是 通 
过 号 码 来 找 一 个 项 目 要 容易 得 多 ,尽管 在 电话 目录 中 包含 了 这 两 种 情况 下 所 需要 的 
所 有 信息 。 当 必须 查找 一 个 大 型 文件 时 ,顺序 扫描 几乎 是 办 不 到 的 ,而 一 个 次 序 关 
系 却 大 大 地 简化 了 这 项 工作 。 

使 用 已 经 讨论 过 的 许多 排序 方法 (第 5 章 ) ,把 文件 重新 排 为 有 序 的 ,使 其 便于 
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查找 ,这 不 会 太 困 难 。 当 然 ,如 果 只 需 对 这 个 表 查 找 一 次 , 则 进行 顺序 查找 比 对 这 个 
文件 进行 完整 的 排序 要 快 ; 但 如 果 要 在 同一 文件 中 进行 重复 查找 ,那么 ,更 好 的 方法 
是 把 它 按 序 排列 。 因 此 在 这 一 节 中 ,我 们 将 集中 研究 这 样 一 些 方法 ,假定 我 们 能 够 
容易 地 存 取 在 任 一 个 给 定位 置 的 键 码 , 则 这 些 方法 适 于 查找 其 键 码 满足 
K1I< 下 <… 所 上 人 N 

的 表 。 在 这 样 的 表 中 ,比较 K 和 天 ; 后 ,我 们 有 

“KK < Ki[ 不 必 考 虑 R;, Ri;11,… ,RNj], 或 

“KK = K;| 查找 完成 ,或 

“KK > Kil 不 必 考 虑 Ri1,R,,… ,RR;] 
除非 i 靠近 该 表示 尾 ,这 三 种 情况 均 已 获 实质 性 进展 ,这 就 是 为 什么 次 序 能 引出 一 
个 有 效 的 算法 的 原因 。 


二 分 查找 ”最 先 想 到 的 一 个 方法 是 从 KK 同 表 的 中 间 键 码 比 较 开 始 的 ;这 个 探 
查 的 结果 指出 下 一 次 应 该 查找 表 的 娜 一 半 ,并 可 再 次 使 用 相同 的 步骤 ,比较 K 和 选 
中 的 一 半 的 中 间 键 码 ,等 等 。 在 至 多 进行 了 大 约 lg 次 比较 之 后 ,或 者 找到 这 个 键 
码 ,或 者 确认 它 不 存在 。 这 个 步骤 有 时 称 为 "对 数 查找 "或 ”二 等 分 法 ,通常 称 为 二 
分 查找 ,如 图 3 所 示 。 





成 功 
图 3 二 分 查找 


尽管 二 分 查找 的 思想 比较 直截了当 ,但 其 细节 可 能 令 人 惊讶 地 复杂 ,而 且 许多 
好 的 程序 员 在 他 们 头 几 次 试用 时 竞 把 它 弄 错 了 。 这 个 算法 的 最 普遍 的 正确 形式 是 
利用 两 个 指针 ! 和 w 来 指出 当前 查找 的 下 限 和 上 限 如 下 : 


算法 B( 二 分 查找 ) 给 定 其 键 码 在 递增 次 序 下 Ki < K,<…< Kw 的 记录 Ri， 
RR,,… , RN 的 一 个 表 , 本 算法 查找 一 个 给 定 的 变 元 KK。 
Bl1.[ 初 始 化 ] 置 /一 1,u 一 N。 
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B2.[ 取 中 点 ] (这 时 我 们 知道 如 果 kK 在 此 表 中 , 则 它 满足 K, 壹 K 二 K,。 下 面 
习题 1 中 有 关于 这 种 情况 的 一 个 更 精确 的 陈述 。) 如 果 </7, 则 这 个 算法 
以 失败 告终 。 否 则 , 置 i 一 | (4+w)/2j, 这 是 该 表 区 域 的 近似 中 点 。 

B3.[ 比 较 ] 如 果 <K;, 转 到 B4; 如 果 KK > K,, 转 到 B5; 如 果 = KK,, 则 算法 
成 功 地 结束 。 

B4.| 调 整 mw] 置 一 i 一 1, 并 返回 B2。 

BS5.[ 调 整 7] 置 /i+1, 并 返回 B2。 | 


图 4 说 明了 这 个 该 二 分 查找 算法 的 两 种 情况 ,第 一 个 是 查找 变 元 653, 它 在 表 中 
出 现 , 而 后 查找 400, 它 不 存在 。 方 括号 指出 / 和 ,下 边 划 线 的 键 码 表示 KK,。 在 这 
两 个 例子 中 ,进行 了 四 次 比较 之 后 ,查找 结束 。 
a) 查找 653 
[061 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908] 
061 087 154 170 275 426 503 509 [512 612 653 677 703 765 897 908] 


061 087 154 170 275 426 503 509 [512 612 653] 677 703 765 897 908 
061 087 154 170 275 426 503 509 512 612 [653] 677 703 765 897 908 
b) 查找 400 

[061 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908] 

[061 087 154 170 275 426 503] 509 512 612 653 677 703 765 897 908 

061 087 154 170 [275 426 503] 509 512 612 653 677 703 765 897 908 

061 087 154 170 [275] 426 503 509 512 612 653 677 703 765 897 908 

061 087 154 170 275] [426 503 509 512 612 653 677 703 765 897 908 


图 4 二 分 查找 的 例子 


程序 B( 二 分 查找 ) ”如 同 在 6.1 节 的 程序 中 那样 ,我 们 这 里 假定 K, 是 出 现在 
单元 KEY+ i 中 的 全 字 长 键 码 。 下 列 代 码 使 用 rl1 寺 1 ,rI2 三 w,rI3 三 ;。 


01 START ENT1 1 1 BI1. 初 奴 化 /一 1 

02 ENT2 N 1 ue—N 

03 JMP 2F 1 转 到 B2 

04 5H JE SUCCESS C1 如 果 K = K, 则 转移 
05 ENT1 1,3 Ci1-S B5. 现 整 1 ,1<-i+1 
06 2H ENTA 0,1 C+1 一 S 。”B2. 取 中 点 

07 INCA 0,2 C+1-S rA<1l1+u 

08 SRB 1 C+l-S rA<|rA/2|(rX 也 改变 ) 
09 STR TEMP C+1l1-S 

10 CMP1 TEMP C+1-S 

11 JG FAILURE C+1 一 S 如果 x<7, 则 转移 
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12 LD3 TEMP C i< 一 中 点 

13 3H LDA K C B3. 比 殊 

14 CMPA KEY,3 C 

15 JGE 5B C 如 果 天 之 天 ; 则 转移 

16 ENT2 一 1,3 C2 B4. 凋 束 xy ,xz<ei 一 1 

17 JMP 2B C2 转 到 B2 | 


这 个 步骤 不 像 我 们 见 过 的 其 它 算法 那样 同 MIX 十 分 “光滑 地 ”" 融 成 一 体 , 因为 
MIX 不 允许 在 变 址 寄存 器 中 作 许 多 算术 运算 。 运 行 时 间 为 (18C -10S+12)x ,其 中 
C= Cl+ C2 是 所 作 的 比较 数 ( 即 步骤 B3 被 执行 的 次 数 ), 以 及 S= [结果 是 成 功 
的 ]。 在 这 个 程序 的 08 行 处 的 “ 右 移 一 个 二 进位 " 仅 在 MIX 的 二 进 制 版 本 上 是 合法 
的 ;对 于 一 般 的 字 节 大 小 ,这 条 指令 应 该 以 “MUL=1V2+1= "代替 ,从 而 把 运行 时 间 
增加 到 (26C 一 18S +20)wu。 


树 表 示 “为 了 真正 理解 在 算法 B 中 所 发 生 的 事情 ,最 好 把 它 想像 成 一 株 二 分 判 
定 树 ,如 图 5 所 示 , 图 中 N=16。 


8) 
4) 2 
2 © 90 4 
DG OO 0 (3) (9 
器 BBD EB [oe 


图 5 N=16 时 与 二 分 查找 对 应 的 比较 树 
当 N 为 16 时 ,这 个 算法 所 作 的 头 一 个 比较 是 K: Ks; 通 过 图 中 的 根 节点 @@ 来 
表示 。 然 后 ,如 果 K < Ksg, 则 这 个 算法 沿 着 左 子 树 ,比较 KK 与 天 4 类 似 地 ,如 条 天 > 
Ks, 则 使 用 右 子 树 。 一 个 不 成 功 的 查找 将 通 向 编号 为 |0| 到 |NN| 的 一 个 “外 部 "方形 节 
点 ;例如 ,我 们 达到 节点 |6| 当 且 仅 当 Ke< 天 < Ky。 
在 N 个 记录 上 进行 二 分 查找 的 二 又 树 可 以 构造 如 下 :如果 N =0, 则 这 个 树 是 


0| ,否则 根 节点 是 
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左 子 树 是 有 [ N/21- 工 个 节点 对 应 的 二 又 树 , 右 子 树 是 有 | N/2 | 个 节点 对 应 的 二 又 
树 ,而 且 所 有 节点 号 都 增加 | N/2 |。 

类 似 地 ,任何 借助 于 比较 法 查找 长 度 为 N 的 一 个 有 序 表 的 算法 ,都 可 以 表示 成 
一 株 N 节点 的 二 叉 树 ,其 中 节点 用 1 一 NN 编号 (除非 算法 作 多 余 的 比较 )。 反 之 , 任 
何 二 又 树 都 对 应 一 个 查找 有 序 表 的 有 效 方 法 ;我 们 简单 地 以 对 称 次 序 从 左 到 右 地 对 
诸 节 点 编号 

0 0D ©® 2 … NU OO WN (1) 

如 果 在 算法 B 中 输入 的 查找 变 元 是 Kio, 则 此 算法 进行 K >> Ks,K< Kis,K= 
Kio 的 比较 。 这 对 应 于 图 5 中 从 根 到 @ 的 通路 。 类 似 地 ,对 其 它 键 码 来 说 ,算法 B 的 
行为 对 应 于 从 这 株 树 的 根 导 出 的 其 它 通 路 。 因 此 ,构造 对 应 于 算法 B 的 二 叉 树 的 方 
法 ,使 我 们 易于 对 N 用 归纳 法 证 明 下 列 结 果 。 


定理 B 如 果 2*-! 过 N<2*, 则 利用 算法 B 进行 一 个 成 功 的 查找 需要 作 (min 
1 ,max 上) 次 比较 。 如 果 N = 2* -1, 则 一 个 不 成 功 的 查找 需要 k 光 比 较 ; 如 果 2* 委 
N<<2* 一 1, 则 一 个 不 成 功 的 查找 需要 k -1 次 或 下 次 比较 。 


对 二 分 查找 的 进一步 分 析 (对 数学 没有 兴趣 的 读者 ,请 跳 到 等 式 (4)) 树 表示 
也 向 我 们 表明 了 怎样 以 一 种 简单 的 方式 来 计算 平均 比较 数 。 令 Cn 是 在 一 次 成 功 
的 查找 中 的 平均 比较 数 ,假定 N 个 键 码 中 每 一 个 都 是 同等 可 能 的 变 元 ;并 令 CN 是 
在 一 次 不 成 功 的 查找 中 的 平均 比较 数 ,并 假定 键 码 之 间 和 端点 值 外 部 的 N +1 个 区 
间 每 一 个 都 是 同等 可 能 的 。 于 是 由 内 部 和 外 部 路 径 长 度 的 定义 ,我 们 有 
树 的 内 部 路 径 长 度 
N 
c =- 树 的 外 部 路 径 长 度 
N+l 
我 们 在 等 式 2.3.4.5-(3) 中 已 经 看 到 ,外 部 路 径 的 长 度 总 是 比 内 部 路 径 长 度 大 2N， 
因此 ,在 Cv 和 Cn 之 间 有 一 个 相当 意外 的 关系 
Cv = 1+ Jc-1 (2) 
这 个 公式 是 T.N. Hibbard 给 出 的 [JACM 9 (1962) ,16 一 17] , 它 对 对 应 于 二 又 树 的 
所 有 查找 方法 都 成 立 。 换 言 之 , 它 对 于 所 有 基于 非 匈 余 比 较 的 方法 都 成 立 。 成 功 查 
找 比 较 的 方差 可 用 不 成 功 查 找 比 较 的 方差 来 表示 (见习 题 25)。 
由 上 面 的 公式 我 们 看 出 ,通过 比较 进行 查找 的 一 种 “最 好 的 "方式 ,是 在 所 有 上 
有 NN 个 内 部 节点 的 二 又 树 中 ,具有 极 小 外 部 路 径 长 度 的 树 。 幸 而 ,可 以 证 明 , 在 这 
个 意义 下 ,对 于 所 有 的 N ,算法 B 是 最 优 的 ;因为 我 们 已 经 看 到 (习题 5.3.1 一 20)， 
当 且 仅 当 一 株 二 叉 树 的 所 有 外 部 节点 都 出 现在 至 多 两 个 相 邻 的 级 上 时 ,该 二 义 树 具 
有 极 小 路 径 长 度 。 由 此 得 出 ,对 应 于 算法 B 的 树 的 外 部 路 径 长 度 为 
(N + 1)(|leN|+2) - 2LgN2+1 (3) 
( 见 等 式 5.3.1-(34))。 由 这 一 公式 和 (2) 我 们 就 能 计算 精确 的 平均 比较 数 , 并 假定 
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所 有 查找 变 元 都 是 同等 可 能 的 。 
N21 23 4 5 6 7 8 9 10 11 12 13 14 15 16 
_111 ,2 1 2533557 39 1 2 3 ”4420 
CN=1ll 广 132 25262728292103 32313314315316 
2 2-.4..06 2 4 6 ,8 10,12,14 2 
Cn=1132 253521273 393103113123133143154 417 


一 般 ,如 果 &=l|Llg Nj, 则 我 们 有 
Cy =k+1-(2:1-k-2)N=lgN-1+e+(k+2)/N 
(4) 
CW= RR+2-2l/(N+1)= lge(N+1)+e 
其 中 0 二 e,e <0.0861, 参 见 等 式 5.3.1~(35)。 

总 结 : 算 法 B 决 不 做 多 于 [lg N +1 次 比较 ,而 且 它 在 一 次 成 功 的 查找 中 平均 
进行 大 约 lgN -1 次 比较 。 再 没有 比 这 更 好 的 基于 比较 的 查找 方法 了 。 如 果 我 们 假 
定 这 个 查找 的 所 有 结果 都 是 同等 可 能 的 , 则 程序 B 的 平均 运行 时 间 近 似 为 

(18lgN - 16)x 对 于 一 次 成 功 的 查找 (5) 
(18lgN + 12)x 对 于 一 次 不 成 功 的 查找 


一 个 重要 的 变形 不 使 用 上 述 查 找 中 的 三 个 指针 /,i 和 ,而 仅 使 用 如 下 两 个 
量 即 当 前 的 位 置 i 和 它 的 变化 速度 5; 在 每 次 不 相等 的 比较 之 后 ,我 们 可 以 置 i<1 
+ 和 6<8/2( 近 似 地 )。 这 样 做 是 可 能 的 ,但 正如 下 面 的 算法 中 那样 ,对 其 细 方 需 
极端 小 心 才 成 ,简单 化 的 解决 方法 注定 会 引起 失误 ! 


算法 U (均匀 的 二 分 查找 ) 给 定 一 个 其 键 码 处 于 递增 次 序 Ki < K,<…< Kw 
的 记录 RI1,R,,… ,Rw 的 表 , 本 算法 查找 变 元 K。 如 果 NN 为 偶数 , 则 算法 有 时 将 涉 
及 一 个 虚拟 键 码 Ko, Ko 应 被 置 成 -co (或 小 于 K 的 任意 值 )。 我 们 假定 六 >1。 

U1.[ 初 始 化 ] 置 i<[ NJ21,m 一 LN/2j]。 

U2.[ 比 较 ] 如 果 天 < 开 ;, 转 到 U3; 如 果 > 开 ; , 转 到 U4; 如 果 天 = 天 ,算法 
成 功 地 结束 。 

U3.[i 减 值 ] (我 们 已 经 认 准 包含 m 或 m 一 1 个 记录 的 一 个 查找 区 间 ;i 恰 指 
向 该 区 间 的 右 端 ) 如 果 m =0, 这 个 算法 以 失败 告终 。 否 则 置 i<-i 一 [ m/21; 
然后 置 m 一 | m/24 并 返回 U2。 

U4.[i 增值 ] (我 们 已 经 认 准 包含 mm 或 m 一 1 个 记录 的 一 个 查找 区 间 ;i 恰 指 向 
该 区 间 的 右 端 ) 如 果 mx. =0, 这 个 算法 以 失败 告终 。 否 则 置 i<—i+| m/2 |; 然 
后 置 mm 一 [mm/2 1 并 返回 U2。 | 


图 6 示 出 当 N=10 时 查找 对 应 的 二 叉 树 。 当 查找 失败 时 ,此 算法 可 能 在 结束 
前 作 一 次 宛 余 的 比较 ,如 图 中 阴影 节点 所 示 。 我 们 可 以 称 这 个 查找 过 程 为 均匀 的 ， 
因为 对 于 级 / 上 的 所 有 节点 来 说 ,在 级 !/ 上 一 个 节点 的 号 码 与 它 在 ! -1 级 上 的 相应 
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祖宗 的 号 码 之 差 ,是 一 个 常数 $。 





(5) 
(2) C8) 6=3 
(3) (7) 9 6=1 
2) (4) (6) 10) 6=1 
0 6| 8| [9| lo 


6 当 N=10 时 一 株 “ 均 匀 的 "二 分 查找 树 

算法 U 的 理论 根据 可 理解 如 下 :假如 我 们 要 查找 的 区 间 长 度 为 n -1; 同 中 间 的 
元 素 (n 是 偶数 ) 或 者 同 两 个 中 间 的 元 素 之 一 (nn 为 奇数 ) 进 行 比 较 后 , 剩 下 了 长 度 
为 Ln/2」 -1 和 [mn/21-1 的 两 个 区 间 。 在 重复 这 一 过 程 次 之 后 ,我们 得 到 了 2* 个 
区 间 , 其 中 最 小 者 长 度 为 Ln/2* -1, 最 大 者 长 度 为 |n/2*] -1。 因 此 ,在 同一 级 上 两 
个 区 间 的 长 度 至 多 差 1; 这 就 使 我 们 有 可 能 选择 一 个 适当 的 “中 间 ” 元 素 , 而 无 需 记 
住 精确 的 长 度 。 

算法 U 的 主要 优点 是 ,我 们 全 然 不 必 保 持 mx 的 值 ,只 需要 查 一 张 在 树 的 各 级 中 
使 用 的 各 6 值 的 短 表 。 于 是 ,这 个 算法 简化 成 下 列 过 程 , 它 在 二 进 计 算 机 上 或 在 十 
进 计算 机 上 同样 适用 。 

算法 C (均匀 二 分 查找 ) 这 个 算法 与 算法 U 很 相像 ,但 它 用 一 个 辅助 表 来 代 
蔡 涉 及 m 的 计算 。 这 个 表 的 项 目 是 
DELTA[ 7 ] = | 2 ee -| 对 于 1 过 ;二 [lgN」+2 (6) 
C1l1.[ 初 始 化 ] 置 i<-DELTA[1], ;<-2。 
C2.[ 比 较 ] 如 果 <K;, 转 到 C3; 如 果 > K; 转 到 C4; 如果 = K;, 此 算法 

成 功 地 结束 。 
C3.[i 减 值 ] 如 果 DELTA[;]= 0, 此 算法 以 失败 告终 。 否 则 , 置 i 一 i 一 

DELTA[L)j ,< 二 1, 并 转 到 C2。 
C4.[i 增值 j 如果 DELTA[;]= 0, 此 算法 以 失败 告终 。 否 则 , 置 i 一 i+ 

DELTAL; ],; 一 ; +1, 并 转 到 C2。 | 


习题 8 证明 ,这 个 算法 仅 当 NN 是 偶数 时 才 访 问 人 为 的 键 码 Ko= -co。 


程序 C (均匀 二 分 查找 ) ”这 个 程序 以 rA 三 K ,rll 二 i ,rl2 二 j ,rl3 寺 DELTA[ 7 ] ， 
利用 算法 C, 所 作 的 事 和 程序 B 相同 。 
01 START ENT1 N+ 1/2 1 C1. 初始 化 i 一 LL(N +1)/2j 
02 ENT2 2 1 j<—2 
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03 LDA K 1 

04 JMP 2F 1 

05 3H JE SUCCESS C1 如 果 KK = K, 则 转移 

06 J32 FAILURE Cl-S 如 果 DELTAL;]=0, 则 转移 
07 DEC1 0,3 Cl1-S-A C3.1 减 入 

08 5H INC2 1 C-1 j<j+1 

09 2H LD3 DELTA ,2 C C2. 比 玖 

10 CMPA KEY,1 C 

11 JLE 3B C 如 果 KK 二 K; 则 转移 

12 INC1 0 ,3 C2 C4.7 增 仿 

13 J3NZ 5B C2 如 果 DELTAL7 1 天 0 则 转移 
14 FAILURE EQU x 1-S 如 果 不 在 表 中 则 转 出 | 


在 一 次 成 功 的 查找 中 ,这 个 算法 对 应 的 二 义 树 与 算法 B 的 二 叉 树 有 相同 的 内 
部 路 径 长 度 , 所 以 平均 比较 次 数 Cx 和 以 前 一 样 。 在 一 次 不 成 功 的 查找 中 ,算法 C 
总 是 恰好 进行 Lljg Nj」+1 次 比较 。 程 序 C 的 总 运行 时 间 在 左 、 右 分 支 之 间 不 是 十 分 
对 称 的 ,因为 C1 被 赋予 的 权 比 C2 要 大 。 但 习题 11 表明,K < K; 同 K>K; 的 机 会 
大 体 上 相同 ;因此 程序 C 近似 地 花费 

(8.5 lg N -6)x 对 于 一 次 成 功 的 查找 (7) 
(8.5Llg N+12)uw 对 于 一 次 不 成 功 的 查找 

尽管 对 于 程序 B 的 运行 时 间 (5) 还 假定 MIX 有 一 条 “ 右 移 二 进位 ”指令 ,如 果 不 使 用 
二 进 计 算 机 的 任何 特殊 性 质 的 话 , 这 个 速度 相当 于 程序 B 的 两 倍 多 。 

L.E.Shar 于 1971 年 提议 对 二 分 查找 作 另 一 种 修改 ,这 在 某 些 计算 机 上 实现 起 
来 会 更 快 一 些 ,因为 在 第 一 步 之 后 它 是 均匀 的 ,而 且 它 不 需要 表 。 第 一 步 是 比较 天 
和 天, ,其 中 ,i=2*,k=|lgN ||。 如 果 KK<K,, 则 对 于 6 等 于 2 ,2 1,0 使 用 
一 个 均匀 查找 。 另 一 方面 ,如 果 KK > K,;, 则 重 置 i 为 i =N+l-2 ,其 中 ,=[lg(N 
-2*+1)], 并 假设 头 一 个 比较 实际 上 是 K> K,, 且 对 于 6 等 于 2:71,21"?,…,1,0 使 
用 一 个 均匀 查找 。 

图 7 示 出 了 当 N= 10 时 Shar 的 方法 。 和 以 前 的 算法 一 样 , 它 的 比较 次 数 决 不 
会 超过 | lgN +1; 因 此 ,尽管 有 时 接连 通过 的 某 些 步 又 是 多 余 的 ,但 其 比较 数 至 多 比 
极 小 平均 比较 次 数 多 一 次 (参见 习题 12)。 

二 分 查找 还 有 另 一 种 修正 , 当 NN 非常 大 时 , 它 提 高 了 所 有 上 述 方法 的 速度 ,这 
个 方法 在 习题 23 中 讨论 ,更 快 的 方法 见习 题 24。 


“ 非 波 那 契 查找 ”我们 已 经 看 到 ,在 多 阶段 合并 中 ,整流 那 契 数 可 以 起 到 和 2 的 
乘 方 相 类 似 的 作用 。 在 查找 中 也 出 现 类 似 的 现象 ,在 这 里 斐 波 那 契 数 为 我 们 提供 了 
二 分 查找 的 另 一 个 方案 。 从 而 得 到 某 些 计算 机 上 更 可 取 的 方法 ,因为 它 仅 包含 加 法 
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图 7 当 N=10 时 ,Shar 的 准 均 匀 二 又 树 


和 减法 ,没有 除 以 2 的 除法 。 我 们 所 要 讨论 的 过 程 ,应 同一 个 确定 单 峰 图 数 极 大 值 
位 置 称 为 “ 斐 波 那 契 查找 "的 重要 数值 过 程 区 别 开 来 【参见 疡 bonacci Quarterly 4 
(1966) ,265 一 269j」 ;名 称 的 相似 性 已 经 导致 了 一 些 混乱 。 
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图 8 6 阶 斐 波 那 契 树 


乍 一 看 , 斐 波 那 契 查找 技术 似乎 非常 神秘 ,如 果 我 们 简单 地 把 程序 拿 来 并 试图 
看 看 它 在 干 些 什么 的 话 , 它 似乎 是 在 变 魔术 。 但 只 要 把 对 应 的 查找 树 画 出 来 ,神秘 
感 立 即 就 消失 了 。 因 此 ,我们 将 通过 考察 斐 波 那 契 树 来 开始 对 这 个 方法 进行 研究 。 

图 8 示 出 了 6 阶 的 斐 波 那 契 树 。 与 我 们 已 经 考虑 过 的 其 它 树 相 比 , 它 看 起 来 更 
像 现 实生 活 中 的 灌木 ,这 也 许 是 因为 许多 自然 过 程 都 满足 一 种 裴 波 那 契 规律 的 绿 
故 。 一 般 , 阶 数 关 的 斐 波 那 契 树 有 忆 ;=- 1 个 内 部 ( 圆 形 ) 节 点 和 FF ;1 个 外 部 (正方 
形 ) 节 点 ,这 株 树 可 构造 如 下 : 

如 果 &=0 或 &=1, 则 此 树 就 是 [0]。 

如 果 之 2, 则 树 根 为 天 ; 左 子 树 是 阶 数 为 上 -1 的 斐 波 那 契 树 ; 右 子 树 是 阶 数 
为 &-2 且 所 有 编号 都 增加 FF 的 辈 波 那 契 树 。 
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同一 个 数 , 这 个 数 就 是 一 个 斐 波 那 契 数 。 例 如 ,在 图 8 中 ,5=8-F4 和 11=8+ Fo 
当 差 是 下 时 ,左下 分 支 对 应 的 斐 波 那 契 差 数 是 下- 1, 而 右 下 分 文 的 差 数 降 为 Fj; -,。 
例如 ,3=5 一 Fi, 而 10=11- 下,。 

如 果 我 们 把 这 些 观察 同 识别 外 部 节点 的 一 个 适当 的 机 制 结 合 起 来 ,就 得 到 下 列 
方法 。 

算法 F ( 斐 波 那 契 查找 ) 给 定 一 个 其 键 码 处 于 递增 次 序 Ki < K,<…< Ky 
的 记录 Ri,R，…RN 的 表 , 本 算法 查找 一 个 给 定 的 变 元 KK。 

为 了 叙述 方便 ,假定 N+1l 是 一 个 完全 的 裴 波 那 契 数 FF ; 1。 如果 提 供 适 当 的 初 
始 化 (见习 题 14) ,就 不 难 使 这 个 方法 对 于 任何 N 都 有 效 。 


F1.[ 初 始 化 ] 置 关 -已 ,pp 和 Poe 和 及 ，。( 在 整个 算法 中 ,和 9 总 是 相 
继 的 辈 波 那 契 数 )。 
F2.[ 比 较 ] 如 果 天 < 天, 则 转 到 步骤 F3; 如 果 天 > 天 , 则 转 到 F4; 而 如 果 天 


= K,, 则 算法 成 功 地 结束 。 

F3.[i 减 值 ] 如 果 gq=0, 则 算法 以 失败 告终 。 否 则 置 i 一 i 一 gq, 并 置 (p,q) 一 
(g,p 一 9), 然 后 返回 F2。 

F4.1i 增值 ] 如 果 p=1, 则 算法 以 失败 告终 ,否则 置 i<-i+g,p 一 pp 一 9g, 然 后 
g<-g 一 万 ,; 并 返回 F2。 | 


以 下 的 MIX 实现 ,通过 设置 两 个 副本 的 内 循环 而 赢得 了 速度 ,一 个 内 循环 把 p 
放 在 rI2 中 ,9 放 在 rI3 中 ,而 男 一 个 则 恰好 把 这 两 个 寄存 器 颠倒 过 来 ;这 便 简 化 了 
步骤 Ff3。 和 事实 上 ,程序 在 寄存 秦 中 真正 保留 的 是 p11 和 og 一 1, 而 不 是 p 和 9g ,为 的 
是 简化 步骤 F4 的 判断 “p=1?”。 


程序 Ff (〈 斐 波 那 契 查 找 ) 我们 遵循 前 面 的 约定 rA 三 K ,rl1l 寺 i,(rI2 或 rI3) 三 
pp 一 1,(rI3 或 rI2) 寺 gq 一 1。 
01 STRRT LDA K 1 Fl . 初 怒 化 
02 ENT1 F, 1 i<—F, 
03 ENT2 F,_1—1 1 pF,-i 
04 ENT3 F ,—1 1 gqg<—F,.» 
05 JMP F2A 1 转 到 步骤 F2 
06 F4A INC1 1 ,3 C2—-S-A F4. i 增值 。i<-i+g 
07 DEC2 1,3 C2-S-A pp-g 
08 DEC3 1,2 C2-S-A gg-p 
09 F2A CMPA KEY ,1 C F2. 比较 
10 JL F3A C 如 果 多 < 开 ; 则 转 到 F3 
11 JE SUCCESS C2 如 果 K = KK, 则 转 出 
12 J2NZ F4A C2-S 如 果 p 关 1 则 转 到 F4 
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12 J2NZ FAA C2—S 如 果 p 关 1 则 转 到 F4 

13 JMP FATLURE A 如 果 不 在 表 中 则 转 出 

14  F3A DEC1 1 ,3 C1 53.7 减 仁 。i<i 一 q 

15 DEC2 1 ,3 Cl Pp gq 

16 J3NN  F2B C1 如 果 gq >0 则 交换 寄存 器 

17 JMP FAILURE 1-S-A 如 果 不 在 表 中 则 转 出 

18 F4B INC1 1 ,2 (18 一 29 行 与 06 一 17 行 
并 行 ) 

19 DEC3 1,2 

20 DEC2 1 ,3 

21 F2B CMPA KEY,1 

22 JL F3B 

23 JE SUCCESS 

24 J3NZ  F4B 

25 JMP FRILURE 

26 F3B DEC1 1 ,2 

27 DEC3 1 ,2 

28 J2NN  F2A 

29 JMP FAITLURE | 


习题 18 中 分 析 了 这 个 程序 的 运行 时 间 。 图 8 表明 ,而 且 分 析 证 明 , 通 常 取 左 分 
文 的 机 会 比 右 分 支 稍 多 些 。 设 C, Cl 和 (C2 一 S) 分 别 为 步骤 F2、F3 和 F4 被 执行 
的 次 数 , 则 我 们 有 
C = (ave $k/Y5 + O(1), maxk—1) 
C1 = (ave k/V5 + O(1), maxk—1) (8) 
C2—S = (aveg 1k/V5+ O(1), max| &£/2 |) 
于 是 取 左 分 支 的 次 数 大 约 是 取 右 分 支 次 数 的 $=1.618 倍 (这 是 我 们 能 够 猜想 得 到 
的 一 个 事实 ,因为 每 个 探测 都 把 剩 下 的 区 间 分 成 为 两 部 分 , 且 左 边 部 分 大 约 是 右边 
部 分 的 $ 倍 那 么 大 )。 因 此 对 于 一 次 成 功 的 查找 ,程序 下 总 的 平均 运行 时 间 近 似 于 


二 ((18 + 4#$)& + 31 ~ 268) 4 2 (7.050 lg N + 1.08)u (9) 
对 于 一 次 不 成 功 的 查找 ,加 上 (9 _ 3g)x 4.15& 。 尽 管 最 坏 情况 下 运行 时 间 
(大 约 为 8.6lgN) 和 稍微 慢 些 ,但 它 比 程序 C 更 快 些 。 
内 播 查 找 ”让 我 们 暂时 忘记 计算 机 ,来 考虑 人 们 如 何 真 正 地 进行 一 次 查找 。 有 
时 日 常生 活 会 向 我 们 提示 好 的 算法 。 
想像 你 自己 在 一 部 字典 中 查 一 个 字 ,你 大 概 不 是 从 查 中 间 的 页 开始 ,然后 查 1/4 
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或 3/4 处 的 页 ,等 等 ,如 同 在 二 分 查找 中 那样 。 你 更 不 大 可 能 去 使 用 斐 波 那 契 查找 ! 

如 果 你 所 要 的 字 是 以 字母 A 开始 的 , 那 你 或 许 会 从 靠近 字典 前 头 的 地 方 开始 。 
事实 上 ,许多 字典 都 有 “ 书 边 索引 ”, 它 标 出 以 一 个 固定 字母 开始 的 单字 的 起 始 页 或 
中 间 页 。 这 个 书 边 索 引 技术 不 难 用 到 计算 机 上 去 ,而 且 它 将 加 速 查找 ,6.3 节 中 剖 
析 了 这 些 算法 。 

即使 在 找到 了 查找 的 起 始点 之 后 ,你 的 动作 也 还 不 太 像 我 们 已 经 讨论 过 的 方 
法 。 如 果 你 注意 到 ,所 要 找 的 字 按 字母 次 序 比 你 正在 查找 的 页 上 的 字 大 很 多 , 则 在 
你 开始 进行 下 次 查找 之 前 ,就 要 翻 过 好 多 页 。 这 和 上 面 的 一 些 算法 大 不 相同 ,那些 
算法 并 没有 对 “大 得 多 "和 “稍微 大 些 " 加 以 区 别 。 

这 些 考 虑 提示 了 一 个 塔 称 为 内 插 查 找 的 算法 :当知 道 K 位 于 Ki 和 K, 之 间 时 ， 
我 们 可 以 把 下 一 次 探测 的 位 置 选 在 位 于 / 和 zx 之 间 大 约 (K 一 K,)/(K, 一 Ki) 这 一 
点 上 ,这 里 假定 键 码 是 数值 的 ,而 且 键 码 在 整个 这 一 区 间 里 以 大 体 不 变 的 方式 增值 。 

内 捅 查找 渐 近 地 优 于 二 分 查找 。 当 表 中 的 键 码 是 随机 分 布 时 , 则 二 分 查找 的 每 


一 步 把 查找 工作 量 从 降低 到 地 ,而 内 插 查 找 则 把 降 到 Yh。 因此 ,平均 说 来 ,内 


插 查 找 花 费 lg lg N 步 , 把 不 确定 性 从 NN 减少 到 2。 

然而 ,计算 机 的 模拟 实验 表明 ,除非 表 相 , 不 然 内 插 查 找 并 不 把 比较 数 减 少 到 足 
以 补偿 所 需 的 多 余 计 算 的 程度 。 除 非 N 超过 比如 说 2* = 65536。 不 然 典 型 的 文件 
并 不 充分 的 随机 ,而 且 lglgN 和 lgN 之 间 差 别 并 不 很 大 。 在 查找 可 能 很 大 的 外 部 文 
件 的 早期 阶段 时 内 播 最 为 成 功 ;在 这 个 范围 收 罕 之 后 ,二 分 查找 能 更 快速 地 完成 任 
务 。( 注 意 , 用 手 翻阅 词典 实质 上 是 一 个 外 部 查找 ,而 非 一 个 内 部 查找 , 稍 后 我 们 将 
讨论 外 部 查找 )。 


历史 和 文献 已 知 最 早 的 把 一 长 串 项 目 排 成 顺序 以 便于 查找 的 例子 ,是 大 约 公 
元 前 200 年 就 编制 成 的 、 值 得 注意 的 巴比伦 人 的 艾 娜 基 比 特 - 安 奴 (Inakibit-Anu) 倒 
数 表 。 这 个 陶土 做 的 表 包 含 100 对 以 上 的 值 ,它们 看 来 是 大 约 500 个 多 精度 的 六 十 
进 制 的 数 和 它们 的 倒数 的 一 个 表 的 开始 ,并且 已 按 词典 顺序 排序 。 例 如 ,该 表 包 括 
有 下 列 项 的 序列 ; 

01 13 09 34 29 08 08 53 20 49 12 27 


01 13 14 31 52 30 49 09 07 12 

01 13 43 40 48 48 49 41 15 

01 13 48 40 30 48 46 22 59 23 23 55 33 20 
01 14 04 26 40 48 36 


对 这 样 500 个 项 进行 排序 的 任务 ,在 当时 可 利用 的 技术 下 ,确实 是 非凡 的 [关于 
进一步 的 细节 ,参见 D.E. Knuth,Selected Papers on Computer Science (Cambridge 
Univ. Press,1996) ,第 11 章 ]。 

把 数值 排 成 次 序 是 相当 自然 的 ,但 是 字母 或 字 之 间 的 次 序 关 系 并 不 是 那样 容易 
看 出 的 。 然 而 对 于 单个 字母 的 一 个 整理 好 的 序列 已 经 出 现在 最 古老 的 字母 表 中 。 
例如 ,许多 圣经 赞美 诗 都 有 这 样 的 诗句 , 它 遵 循 一 个 严格 的 字母 序列 , 头 一 个 诗句 以 
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a 开 始 , 第 二 句 以 b 开 始 , 等 等 ;这 有 助 于 记忆 。 终 于 ,字母 的 标准 序列 为 内 米 特 人 
(Semitic) 和 希腊 人 用 来 表示 数 ; 例 如 ,a,B,7Y 分 别 表示 1,2,3。 

把 字母 表 的 次 序 用 于 整个 的 字 , 是 一 项 更 晚 些 的 发 明 ; 显 而 易 见 ,但 必须 教 给 孩 
子 们 ,而 且 在 历史 上 的 某 个 时 候 , 曾 有 必要 教 给 成 年 人 ! 在 爱 琴 岛 上 已 经 发 现 了 大 
约 公 元 300 年 前 的 春 于 表 ,给 出 了 某 些 迷 信和 的 宗教 中 的 人 名 ;这 些 表 按 字母 排列 ,但 
仅 按 头 一 个 字母 ,因此 只 表示 了 自 左 至 右 进 行 基数 排序 的 第 一 次 扫描 。 公 元 134 一 
135 年 间 的 某 些 希腊 文稿 包含 了 一 些 分 类 账 的 片断 , 它 列 出 了 按 头 两 个 字母 排序 的 
纳税 人 的 名 称 。(Apollonius Sophista) 在 他 的 长 而 和 谐 的 符 马 许 中 (公元 100 年 ) ,把 
字母 顺序 用 于 头 两 个 字母 上 ,而 且 通 常 也 用 于 随后 的 字母 上 。 还 有 一 些 更 完美 的 字 
母 顺 序 化 的 例子 非常 有 名 ,最 突出 的 有 盖 伦 Galen 的 Hippocratic Glosses (大 约 公 元 
200 年 ) ,但 这 些 都 是 非常 罕见 的 。 因 此 ,在 圣人 St. Isidorus 的 Etymologiarum (大 约 
公元 630 年 ,第 十 册 ) 中 , 仅 按 它们 的 头 一 个 字母 来 排列 词 序 ; 而 Corpus Glossary (〈 约 
公元 725 年 ) 仅 使 用 每 个 字 的 头 两 个 字母 。 后 两 部 著作 也 许 是 中 世纪 编 臭 的 最 大 的 
非 数 值 方面 的 数据 文件 。 

在 Giovanni di Genoa 的 Catholicon (1286 年 ) 一 书 之 前 ,我 们 还 没有 见 到 过 对 正 
确 的 字母 顺序 的 专门 描述 。 在 他 的 前 言 中 ,Giovanni 说 明 : 

amo 在 bibo 之 天 

abeo 站 adeo 之 及 

amatus 在 amor 之 天 

imprudens 在 impudens 之 天 

iusticia 在 iostus 之 再 

polisintheton 在 ”polissenus 之 脐 

(由 此 给 出 了 按 第 一 个 ,第 二 个 ,… ,第 六 个 字母 排列 的 情况 的 例子 ) ,其余 类 推 。 
他 述说 了 为 想 出 这 些 规则 所 需要 的 努力 。“ 因 此 ,好 读者 ,我 请 求 你 ,不 要 训 笑 我 这 
巨大 的 劳动 和 这 个 次 序 是 不 值钱 的 。” 

在 发 明 印 刷 术 之 前 , Lloyd W. Daly 对 字母 顺序 进行 过 详细 研究 [ 见 Collection 
Latomus 90 (1967) ,100 页 ] ,他 发 现 了 某 些 有 趣 的 旧 手稿 ,它们 显然 是 一 些 草稿 纸 ， 
上 面 有 按 头 几 个 字母 排序 的 一 些 单 字 ( 见 该 专 着 的 87 一 90 页 )。 

第 一 本 英文 字典 , 即 Robert Cawdrey 的 Table Alphabeticall (伦敦 ,1604)j 包 含 下 
列 的 提示 : 

如 果 你 想 要 查找 的 字 是 以 (a) 开 始 的 , 则 在 这 个 表 的 开头 处 查找 ,如 果 是 以 (v) 
开始 , 则 在 靠近 这 个 表 的 末尾 处 查找 。 又 ,如果 字 以 (ca) 开 始 , 则 在 字母 (c) 的 开头 
处 查找 ,如果 以 (cu) 开 始 , 则 在 靠近 该 字母 的 末尾 处 查找 ,如 此 类 推 。 

Gawdrey 在 编写 他 的 字典 的 过 程 中 ,看 来 也 曾 自 学 过 怎样 来 编排 字母 ;在 最 初 
的 一 些 页 上 ,出 现 过 许多 放 错 位 置 的 字 ,而 最 后 部 分 的 字母 顺序 就 好 得 多 了 。 

John Mauchly 在 也 许 是 第 一 部 出 版 的 关于 非 数值 程序 设计 方法 的 书 中 ,首先 提 
出 了 二 分 查找 [Theory and Techniques for the Design of Electronic Digital Computers， 
G.W.Patterson 主编 ,1(1946),9.7 一 9.8;3 (1946),22.8 一 22.9]。 这 个 方法 在 程序 
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员 中 “众所周知 ”"， 但 是 似乎 还 没有 人 对 N 不 具有 2" 一 1 这 种 特殊 形式 时 的 方法 作 
过 详细 讨论 [ 见 A. D. Booth,Nature 176(1955),565;A.1.Dumey,Computers and 
Automation 5(1956 年 12 月 ),7, 其 中 二 分 查找 称 为 “第 二 十 个 问题 ”; Daniel D. 
McCracken, Digital Computer Programming (Wiley, 1957), 201 ~ 203; 以 及 M. 
Halpern CACM 1,1(19$8 年 2 月 ),1 一 3]。 

D.H. Lehmer[Proc. Symp. Appl. Math. 10(1960) ,180 一 181] 显 然 是 第 一 个 发 表 
对 于 所 有 N 都 有 效 的 一 个 二 分 查找 算法 的 人 ,H. Bottenbruch 还 出 了 第 二 步 [JACM 
9 (1962) ,214] ,他 介绍 了 算法 B 的 一 种 有 趣 的 变形 , 它 避 免 了 在 最 后 结束 之 前 单 作 
一 次 相等 判断 :在 步骤 B2 中 利用 1i<[(+z2)/21 代 蔡 L(+2)121, 每 当天 之 开 ; 时 
置 !<;; 然 后 在 每 一 步 中 -都 减 值 。 最 后 , 当 !2=2 时 ,我 们 有 K, 夺 KKisi， 
而 且 再 做 一 次 比较 即 可 判断 这 个 查找 是 否 成 功 (假定 开始 时 KK 宇 K1)。 这 个 思想 在 
许多 计算 机 上 稍微 加 速 了 内 循环 ,而 且 同 样 的 原理 可 以 在 这 一 他 中 讨论 的 所 有 算法 
中 使 用 ;但 是 由 于 式 (2) ,一 次 成 功 的 查找 平均 将 要 求 大 约 再 做 一 次 迭代 。 由 于 内 循 
环 仅 执行 大 约 lg N 次 ,因此 在 这 一 次 额外 的 迭代 与 一 次 更 快 的 循环 之 间 的 折衷 并 
不 节省 时 间 , 除 非 N 非常 大 (见习 题 23)。 另 一 方面 , 当 表 含 重复 键 码 时 ， 
Bottenbruch 的 算法 将 发 现 一 个 给 定 键 码 的 最 右 出 现 ,而 这 一 性 质 有 时 很 重要 。 

K.E, Iverson[A Programming Language (Wiley,1962),141|] 给 出 了 算法 B 的 过 
程 , 但 是 没有 考虑 到 不 成 功 查 找 的 可 能 性 。D. E. Knuth[ CACM 6(1963),556 一 
558] 介 绍 了 算法 B 作为 自动 画 框 图 系统 所 用 的 一 个 例子 。 均 匀 二 分 查找 算法 C, 是 
1971 年 斯 坦 福 大 学 的 A. K. Chandra 向 作者 建议 的 。 

斐 波 那 契 查找 是 由 David.E. Ferguson[CACM 3(1960) ,648] 发 明 的 。 类 人 于 斐 
波 那 契 树 的 二 又 树 早 在 1910 年 就 出 现在 挪威 数学 家 (Axel Thue) 先 驱 性 的 工作 中 。 
(参见 习题 28) 。 没 有 标号 的 斐 波 那 契 树 早 在 许多 年 前 就 出 现 了 , 它 作 为 珍品 收藏 
在 Hugo Steinhaus 的 普及 读物 Mathematical Snapshots [纽约 :Stechert,1938] 第 28 
页 ;他 把 这 棵 树 倒 着 画 ,因而 看 起 来 像 一 颗 真 实 的 树 , 树 的 右 分 文 的 长 度 是 左 分 文 的 
两 倍 ,使 得 所 有 叶子 都 在 同一 级 上 出 现 。 

W.W.Peterson 提出 了 内 插 查 找 [IBM J. Res, & Devel. 1(1957) ,131 一 132 ] ; 关 
于 它 的 平均 特性 的 正确 分 析 直 到 许多 年 后 才 被 发 现 。 


习题 


> 1.[21] 证 明 : 如 果 在 二 分 查找 的 步骤 B2 中 x</, 则 我 们 有 xx=2Z2-1 和 天 <K< 开 (由 约 
定 ,假定 Ko= -co 和 Kii= + %, 但 这 些 人 为 的 键 码 在 本 算法 中 是 用 不 上 的 ,所 以 它们 不 必 在 
实际 的 表 中 出 现 )。 

入 2.[22 ] 如 果 我 们 (a) 把 步骤 B5 改 为 “1 一 i" 来 代 兰 “1 一 i + 1”, 则 算法 B 是 否 仍 将 有 效 地 工 
作 ? (b) 把 步骤 B4 改 为 “ 一 i” 以 代替 “wz 一 i 一 1”" 呢 ?(c) 这 两 个 变化 都 作 呢 ? 

3.[15] 什么 查找 方法 对 应 于 下 页 上 边 的 树 ? 什么 是 在 一 次 成 功 的 查找 中 所 作 的 平均 比较 次 
数 ? 在 一 次 不 成 功 的 查找 中 呢 ? 
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4.[20] 如 果 使 用 程序 6.1S( 顺 序 查 找 ) ,一 次 查找 恰 花 费 638 个 单位 时 间 , 则 使 用 程序 B( 二 
分 查找 ) 须 花费 多 长 时 间 ? 

5. LM24 ] 对 于 六 的 什么 值 ,程序 B 实际 上 平均 慢 于 一 个 顺序 查找 (程序 6.1Q )( 假 定 这 个 查 
找 是 成 功 的 )? 

6.[28](E.K.Iverson) 习题 4 建议 我 们 最 好 采用 一 种 “混合 ”方法 , 即 当 剩 下 区 间 的 长 度 小 
于 某 个 谦 俩 地 选择 的 值 时 ,就 从 二 分 查找 变 成 顺序 查找 。 试 对 这 样 一 个 查找 写 出 有 效 的 MIX 程 
序 并 确定 最 适 于 “ 换 马 ”的 值 。 

了 > 7.[ M22] 如 果 我 们 改变 步骤 U1 使 得 :(a)i 和 m 都 置 成 等 于 LN/21;(b)i 和 mm 都 置 成 等 于 

| N/2 1, 试 问 算法 U 是 否 仍 将 正确 地 工作 ? [提示 :假设 头 一 步 是 “ 置 i<-0,m 一 N( 或 N+1), 转 
到 U4”]? 

8.[ M20] 像 在 (6) 中 定义 的 那样 , 令 8 = DELTAL;] 是 在 算法 C 中 的 第 j 个 增 量 。 

a) 和 D) “68) 等 于 什么 ? 

b) 在 步骤 C2 中 能 出 现 的 I 的 极 小 值 和 极 大 值 是 多 少 ? 

9.[20] 对 于 所 有 的 查找 变量 ,算法 B 和 算法 C 实现 相同 的 比较 序列 ,在 这 个 意义 下 ,算法 B 
和 CC 精确 地 等 价 , 有 无 任何 N>1 的 值 ,使 算法 B 和 C 精确 地 等 价 ? 

10.[21] 说 明 如 何 来 写 包 含有 近似 地 7lg N 条 指令 和 有 大 约 4. 5lg N 单位 的 运行 时 间 的 算 
法 C 的 MIX 程序 。 

11.[M26] 作为 N 和 S 的 一 个 函数 , 求 程序 C 的 频率 分 析 中 C1、C2 和 A 的 平均 值 的 精确 
公式 。 

12.[20] 画 出 对 应 于 N= 12 时 Shar 方 法 的 二 分 查找 树 。 

13.[ M24] 对 于 1<<N<16, 试 编 出 Shar 方法 所 作 的 平均 比较 次 数 表 ,并 且 既 考虑 成 功 的 查 
找 也 考虑 不 成 功 的 查找 。 

14.121] 说 明 怎样 推广 算法 下 ,使 它 对 所 有 N 宇 1 都 将 适用 。 

15.[M19] 对 于 & 的 什么 值 ,& 阶 斐 波 那 契 树 定 义 了 一 个 最 优 查 找 过 程 , 即 平均 说 来 所 做 的 
比较 次 数 最 少 ? 

16.121」 图 9 示 出 在 斐 波 那 契 原 来 的 兔子 问题 中 (人 参考 1.2.8 节 ) 兔 子 的 线性 图 表 。 问 在 这 
个 图 表 和 正文 中 讨论 的 斐 波 那 契 树 之 间 是 否 有 一 个 简单 的 关系 ? 

17.[ M21 ] 由 习题 1.2.8 一 34( 或 习题 5.4.2 - 10) 我 们 知道 ,每 个 正 整数 n 均 可 惟一 地 表示 
为 裴 波 那 契 数 之 和 ) = 了 十 Fa 十 ，… 十 Fs。 ,其 中 r~ 之 1 ,对 于 1< 7J<r,o 之 Or+l +2, 且 ua, 之 2。 试 证 


明 在 & 阶 斐 波 那 契 树 中 ,由 根 到 节点 四 的 路 径 长 度 为 k+1 一 rr 一 a,。 

18.[ M30] 作为 &、Fi、Fi ,1 和 S 的 一 个 函数 , 求 在 程序 下 的 频率 分 析 中 C1、C2 和 A 的 平均 
值 的 精确 公式 。 
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6.2 通过 键 码 比 较 进 行 查找 


初始 时 
第 一 个 月 
第 二 个 月 
第 三 个 月 
第 四 个 月 
第 五 个 月 
第 六 个 月 


图 9 按照 斐 波 那 契 规则 繁殖 的 兔子 对 
19.[ M42 ] 对 于 习题 14 中 建议 的 算法 的 平均 运行 时 间 进 行 详尽 的 分 析 。 
20.[ M22 ] 在 一 个 二 分 查找 中 需要 的 比较 次 数 近 似 为 logs NN ,而 在 斐 波 那 契 查 找 中 它 大 约 为 
($/Y5 )logsN。 本 题 的 目的 是 证 明 这 些 公 式 都 是 一 个 更 一 般 结果 的 特殊 情况 。 


设 p 和 9g 是 正 数 , 且 p+gq=1。 考 虑 一 个 查找 算法 ,对 于 它 ,给 定 递增 的 N 个 数 的 一 份 表 
先 把 变 元 同 第 (2N) 个 键 码 比较 ,然后 在 诸 较 小 的 块 区 中 和 迭代 这 个 过 


(二 分 查找 有 p= 9= 六 ; 斐 波 那 契 查 找 有 p=1/#,g=1/#$? ) 。 


如 果 C(NN) 表 示 查 找 长 度 为 N 的 一 份 表 所 需要 的 平均 比较 次 数 , 则 它 近 似 地 满足 关系 式 
C(1) = 0; C(N) = 1+ pC(pN)+ gC(gN) 对 于 N>1 
这 是 由 于 在 头 一 次 比较 之 后 ,该 查找 归结 为 一 个 pN 个 元 素 的 查找 的 概率 (大 约 ) 为 p ,归结 为 一 
个 gN 个 元 素 的 查找 的 概率 为 q 的 缘故 。 当 N 很 大 时 ,我 们 可 以 忽略 由 于 pN 和 qN 不 恰 为 整数 
这 一 事实 所 引起 的 小 阶 次 的 影响 。 

a) 证 明 ,适当 选择 5,C(N)=logsN 恰 满足 这 些 关系 ,对 于 二 分 和 斐 波 那 契 查找 ,5 的 这 个 值 
同 早先 导出 的 相 一 致 。 

b) 考 虑 以 下 的 论点 :“ 在 这 个 算法 中 ,被 扫描 的 区 间 长 度 除 以 1/p 的 概率 是 p; 这 个 区 间 大 小 
除 以 1/9 的 概率 是 vg。 因 此 平均 说 来 该 区 间 除 以 p'(1/p)+9q'(1/q)=2, 所 以 这 个 算法 和 二 分 查 
找 一 样 好 ,而 不 论 p 和 9g 是 什么 。 这 个 论证 有 错误 吗 ? 

21.[20] 画 出 对 应 于 N= 10 时 内 播 查找 的 二 又 树 。 

22.[M41 ] ( 姚 期 智和 姚 储 枫 ) 证 明 : 当 把 内 捅 查找 应 用 于 已 经 排 好 序 的 N 个 独立 的 均匀 随 
机 键 码 时 ,平均 说 来 , 它 的 一 个 适当 陈述 在 渐 近 意义 下 要 求 平 均 lg lgN 次 比较 。 而 且 , 对 于 这 样 
的 表 的 所 有 查找 算法 平均 必须 花费 近似 lglgN 次 比较 。 

P23.[25] 在 本 节 末 屁 提 出 的 H. Bottenbruch 的 二 分 查找 算法 ,在 查找 的 末尾 之 前 避免 作 相 等 
判断 。( 在 该 算法 运行 期 间 ,我 们 知道 K 委 K<K, ,而 且 在 /=xv 之 前 ,不 检查 相等 的 情形 )。 
这 样 一 个 技巧 将 使 程序 B 对 大 的 N 运行 得 更 快 一 些 , 因 为 “JE”" 指 令 可 从 内 循环 中 撤销 。( 然 而 ， 
这 一 思想 事实 上 并 不 实际 ,因为 lg N 通常 很 小 ;为 了 补偿 在 一 次 成 功 的 查找 时 所 需要 的 额外 的 工 
作 ,要 N>>2% 才 行 ,因为 (5) 的 运行 时 间 (18lg N -16)u 被 减少 到 (17.5 lg N+17)21) 

证 明 对 应 于 一 个 二 叉 树 的 每 个 查找 算法 , 均 可 修改 为 如 下 一 个 查找 算法 ,这 个 查找 算法 在 树 
的 内 部 节点 处 使 用 两 路 分 支 (( 和 之 ) ,代替 在 正文 讨论 中 所 用 的 三 路 分 支 (< ,= ,或 >)。 特 别 是 ， 
说 明 在 这 种 情况 下 如 何 修改 算法 C。 

jp24.[23] 在 2.3.4.5 小 节 和 5.2.3 小节 已 经 看 到 ,完备 的 二 叉 树 是 一 种 在 连续 单元 中 表示 一 
株 极 小 路 径 长 度 树 的 方便 的 方式 。 试 设计 以 这 个 表示 为 基础 的 一 个 有 效 查找 方法 。[ 提 示 : 在 二 
分 查找 中 是 否 有 可 能 用 乘 以 2 来 代替 除 以 2?] 

P25.[ M25 ] 假设 一 株 二 又 树 对 于 =0,1,… 在 级 上 有 有 ai 个 内 部 节点 和 6 个 外 部 节点 ( 根 
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在 0 级 ), 于 是 在 图 8 中 我 们 有 (ao,al,…,as)=(1,2,4,4,1,0) 和 (bo,651,…,bs)= (0,0,0,4,7， 
2)。(a) 证 明 在 生成 函数 A(z)= azx* 和 B(z)= ,bizx* 之 间 有 一 个 简单 的 代数 关系 成 立 。(b) 
一 株 二 义 树 的 成 功 查找 的 概率 分 布 , 具 有 生成 函数 g(z)= zA(z)/N ;而 不 成 功 的 查找 的 生成 函 
数 是 h(z)= B(z)/(N+1)。( 于 是 在 正文 的 记号 下 ,我 们 有 Cn = mean(g), CR= mean(h), 且 等 
式 (2) 给 出 了 这 些 量 之 间 的 一 个 关系 式 。) 试 求 var(g) 和 var(h ) 之 间 的 一 个 关系 式 。 

26.[22 ] 证 明 斐 波 那 契 树 同 三 条 磁带 上 的 多 阶段 合并 排序 有 关 。 

27.[ M30」(H.S. Stone 和 John Linn) 考 虑 一 个 查找 过 程 , 它 同时 使 用 & 部 处 理 机 , 且 仅 以 键 
码 的 比较 为 基础 。 于 是 在 查找 的 每 一 步 ,确定 上 个 下 标志，… ,如 ,同时 进行 个 比较 ;如 果 对 于 某 
个 j,K = Ki , 则 该 查找 成 功 地 结束 ,否则 ,根据 2 种 可 能 的 结果 KK < K; 或 K> Ki,(1<j 二 &) 来 
进行 下 一 步骤 。 

证 明 , 当 六 一 co 时 ,这 样 一 个 过 程 必须 总 是 近似 地 至 少 平均 花费 logj, +11N 步 ,其 中 假定 这 个 
表 的 每 个 键 码 作 为 一 个 查找 变 元 是 同等 可 能 的 。( 因 此 , 比 起 一 部 处 理 机 的 二 分 查找 来 ,在 速度 上 
可 能 的 增加 仅 是 因子 lg(&+T1) ,而 不 是 我 们 可 能 期 望 的 因子 &。 在 这 个 意义 下 ,更 有 效 的 是 对 每 
个 处 理 机 赋 以 不 同 的 独立 的 查找 问题 而 不 是 把 它们 在 单一 的 查找 中 合并 。) 

28.[ M23 」 借助 于 在 二 元 操作 符 * 的 代数 表达 式 定 义 Thue 树 T, 如 下 ;To(x)=xzxz,T 
(x)=zx, Tr2(T)= Tri(r) * T(z)o 

a)T, 的 叶 数 是 当 把 T(z) 完 全 写 出 时 z 出 现 的 个 数 , 试 借助 斐 波 那 契 数 来 表达 这 个 数 。 

b) 证 明 ,如 果 二 元 操作 符 * 满足 公理 

(( 奖 关 交 ) 关 并 ) 闪 ( 人 (工头 工 ) 关 工 ) = 工 

则 对 于 所 有 痛 辫 0 和 n 宇 1,T,(T,(z))=T,;,_1(zx) 

了 29.[22] (Paul Feldman, 1975) 代替 假定 Ki < Ks < …KN, 仅 假定 Kyo) < Ks) < < 
Kcr) ;其 中 排列 p(1)p(2)…p(N) 是 一 个 乘 方 ,而 且 对 于 ; 的 所 有 偶数 值 ,pz(7) =7。 试 证 明 , 通 
过 作 到 至 多 2LlgN」+1 次 比较 ,我 们 能 够 找 出 任何 给 定 的 键 码 K ,或 者 确定 K 不 存在 。 

30.[27」( 乘 方 的 编码 ) 使 用 上 一 道 题 的 思想 , 试 找 出 一 种 方法 ,以 这 样 一 种 方式 来 安排 NN 个 
不 同 的 键 码 , 即 当 m 夺 N/4+1 一 2’ 时 ,这 些 键 码 的 相对 次 序 含 蔓 地 对 任意 给 定 的 1 位 二 进 数 之 |， 
Zz2，"… ,zm 的 一 个 数组 进行 编码 。 通 过 你 的 安排 ,对 于 任何 给 定 的 j, 只 须 作 上 次 比较 ,应 有 可 能 
确定 z; 的 前 导 的 & 个 二 进位 ,也 有 可 能 通过 三 2LlgN」+1 次 比较 找 出 任意 一 个 键 码 。( 这 个 结果 
可 用 于 对 在 时 间 和 空间 两 方面 都 是 渐 近 地 有 效 的 一 些 数据 结构 的 理论 研究 上 。 


6.2.2 二 又 树 查 找 


由 上 一 小 节 我 们 知道 ,一 株 隐 含 的 二 又 树 结构 有 助 于 了 解 二 分 查找 和 斐 波 那 契 
查找 的 特性 。 对 于 给 定 的 六 值 ,与 二 分 查找 相对 应 的 树 ,达到 了 借助 键 码 比较 来 查 
找 一 份 表 所 需 比 较 数 的 理论 极 小 值 。 但 是 ,上 一 小 节 的 方法 主要 适用 于 固定 长 度 的 
表 ,这 是 因为 ,记录 的 顺序 分 配 使 得 插入 和 删除 相当 费时 。 如 果 这 个 表 动 态 地 变化 ， 
则 我 们 花费 的 维护 时 间 可 能 比 在 二 分 查找 中 查找 它们 时 市 省 的 时 间 还 多 。 

使 用 一 个 明显 的 二 叉 树 结构 ,不 但 能 有 效 地 查找 表 , 而 且 还 能 迅速 地 插入 和 删 
除 记录 。 因 此 ,我 们 实际 上 就 有 一 个 对 于 查找 和 排序 两 者 都 有 用 的 方法 。 这 种 灵活 
性 的 获得 ,是 通过 对 表 的 每 个 记录 附加 两 个 链接 场 来 达到 的 。 

查找 一 个 增长 着 的 表 的 技术 ,通常 称 为 符号 表 算 法 ,因为 汇编 程序 和 编译 程序 
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以 及 其 它 系 统 程序 一 般 都 使 用 这 样 的 方法 以 记 住 用 户 定义 过 的 符号 。 例 如 ,在 一 个 
编译 程序 内 每 个 记录 的 键 码 ,可 以 是 某 个 FORTRAN 或 C 程 序 中 表示 某 变 量 的 符 
号 标识 符 ,而 该 记录 的 其 余部 分 可 以 包含 那个 变量 的 类 型 及 它 的 存储 分 配 的 信息 。 
或 者 说 , 键 码 可 以 是 MIXAL 程序 中 的 一 个 符号 ,而 该 记录 的 其 余部 分 包含 着 那个 
符号 的 等 价 物 。 本 小 节 描 述 的 树 查 找 和 插入 程序 可 有 效 地 用 作 符号 表 算 法 ,特别 适 
用 于 一 些 希 望 按 字母 顺序 打印 出 符号 表 的 场合 。6.3 和 6.4 节 描述 了 其 它 符 号 表 


算法 。 
pres) 


| Comoe ) [4]C te ) Csconpro ) C vineo ) 
sj]Cumm ) [el [9][o 


6 | 

图 10 一 株 二 分 查找 树 
10 示 出 包含 黄道 十 一 天 官 名 称 的 二 分 查找 树 。 如 果 我 们 现在 在 根 处 或 树 的 
顶点 处 开始 查找 第 12 个 名 字 人 马 座 (SAGITTARIUS), 则 发 现 它 大 于 摩羯 座 
(CAPRICORN) ,所 以 我 们 向 右 移 ; 它 大 于 双鱼 座 (PISCES) ,所 以 再 次 右 移 ; 它 小 于 金牛 
座 (TAURUS) ,所 以 左 移 ; 它 还 小 于 天 蝎 座 (SCORPIO) ,所 以 我 们 达到 外 部 节点 gj。 这 


个 查找 是 不 成 功 的 ;现在 我 们 可 以 把 人 马 座 链接 到 树 中 以 代替 外 部 节点 |8|, 这 就 把 
它 插 入 到 了 最 后 的 查找 位 置 。 这 样 一 来 ,这 个 表 就 能 增长 而 无 需 移 动 任何 现 有 的 记 
录 。 图 10 就 是 以 一 株 空 树 开 始 , 把 CAPRICORN, AQUARIUS ,PISCES, ARIES, TAURUS ， 
- GEMINI ,CANCER , LEO ,VIRGO , LIBRA , SCORPIO 诸 键 码 依 次 插入 树 中 而 形成 的 。 

图 10 中 根 的 左 子 树 的 所 有 键 码 ,在 字符 次 序 上 痢 小 于 CAPRICORN , 而 右边 子 
树 中 的 所 有 键 码 ,在 字符 次 序 上 都 大 于 它 。 对 于 每 个 节点 的 左 子 树 和 右 子 树 ,类 似 
的 命题 也 成 立 。 由 此 得 出 ,如果 我 们 以 对 称 次 序 来 过 有 历 这 株 树 (参看 2.3.1 小 节 )， 
那么 诸 键 码 严 格 地 从 左 到 右 组 成 如 下 序列 

AOUARIUS ，RRIES ，CRNCER ，CAPRICORN ，GEMINI ，LEO ，,… ，VIRGO 
这 是 因为 ,对 称 次 序 的 原则 是 :对 每 个 节点 , 先 遍 历 该 节点 的 左 子 树 ,接着 是 该 节点 
397 ， 
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本 身 ,然后 遍历 右 子 树 。 
下 列 算 法 详尽 地 叙述 了 查找 和 插 人 的 过 程 。 


算法 TT ( 树 查找 和 插入 ) 给 定 一 个 形式 如 上 所 述 二 又 树 的 记录 表 , 本 算法 查找 
一 个 给 定 的 变 元 K。 如 果 K 不 在 表 中 , 则 在 树 的 适当 位 置 插入 包含 kK 的 一 个 新 节 
假定 树 的 节点 至 少 包含 下 列 诸 字段 
KEY(P) = 存 于 NODE(P) 中 的 键 码 ; 
LLINK(P) = 指向 NODE(P) 的 左 子 树 的 指针 : 
RLINK(P)= 指向 NODE(P) 的 右 子 树 的 指针 。 
空子 树 ( 图 10 中 的 外 部 节点 ) 以 空 指针 A 表示 ,变量 ROOT 指向 此 树 的 根 。 为 方便 起 
见 ,我 们 假定 此 树 不 是 空 的 ( 即 ,R00T 了 关 A)。 因 为 当 ROOT= A 时 ,应 该 做 什么 操作 是 
显然 的 。 
T1.[ 初 始 化 ] 置 P< 一 R00T。( 指 针 变 量 PP 将 沿 树 下 移 )。 
T2.[ 比 较 ] 如 果 K<KEY(P) , 则 转 到 T3; 如 果 K>KEY(P), 则 转 到 T4; 如 果 区 
=KEY(P) , 则 查找 成 功 地 结束 。 
T3.| 左 移 ] 如 果 LLINK(P) 关 A, 则 置 P<-LLINK(P) 并 转 回 T2 ,否则 转 到 T5。 
T4. | 右 移 ] 如 果 RLINK(P) 关 A, 则 置 P<-RLINK(P) 并 转 回 T2。 
TS.[ 插 入 树 ]( 这 个 查找 是 不 成 功 的 ;我 们 现在 将 把 KK 置 人 树 中 。) 置 Q< 
AVAIL, 即 一 个 新 节点 的 地 址 。 置 KEY(Q)<-K ,LLINK(Q)< 一 RLINK(0)< 人 人 ( 实 
际 上 ,新 节点 的 其 它 场 也 应 予 初始 化 。) 如 果 KK 小 于 KEY(P), 则 置 LLINK(P) 
< 一 0 ,否则 置 RLINK(P)<-08Q。( 这 时 我 们 可 置 p<-9, 并 成 功 地 结束 此 算法 )。 
| 








图 11 树 查 找 和 插入 
这 个 算法 很 便于 用 机 器 语言 实现 。 例 如 ,我 们 可 以 假定 , 树 节点 形 为 
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也 许 后 边 还 跟 有 INFO 的 一 些 附加 字 。 利 用 可 用 存储 空 





第 二 章 中 那样 ,我 们 可 以 写 出 下 列 的 MIX 程序 ; 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 


LLINK 


RLINK 


START 


4H 


1H 
2H 


DH 


1H 
DONE 


程序 ( 树 查 找 和 插入 ) 


EQU 
EQU 
LDA 
LD1 
JMP 
LD2 
J22 
ENT1 
CMPA 
JG 
JE 
LD2 
J2NZ 
LD2 
J22 
LDX 
STX 
STA 
STZ 
JL 
ST2 
JMP 
ST2 
EQU 


一 3S+4)z, 其 中 


2:3 
4:5 

K 

ROOT 

2F 

0,1 (RLINK) 
SF 

0,2 

1,1 

4B 

SUCCESS 
0,1(LLINK) 
1B 

AVAIL 
OVERFLOW 

0 ,2(RLINK) 
AVAIL 

1,2 

0,2 

1F 

0 ,1(RLINK) 
十 2 
0,1(LLINK) 


x 


C= 所作 比较 数 ， 


rA=K ,rll=P ,rl2 = 0。 


6.2 通过 键 码 比较 进行 查找 


(1) 


间 的 一 个 AVAIL 表 , 如同 在 


卫 . 彻 疤 化 
力 < ROOT 


7T4. 石 移 ,0<RLINK(P) 
如 果 Q=A 则 转 到 T5 
P< 0 

T2. 比 蕉 

如 果 KK >>KEY(P) 则 转 到 T4 
如 果 K = KEY(P) 则 转 出 
T3. 左 移 ,0<LLINK(P) 
如 果 Q 关 A 则 转 到 T2 

75. 世人 大 中 


0<AVRAIL 
KEY(O)<-K 
LLINK(Q)<—RLINK(Q)<— 人 
是 天 <KEY(P) 吗 ? 
RLINK(P)<-0 


LLINK(P)<—O 
插入 后 转 出 | 


这 个 程序 的 前 13 行进 行 查找 ;后 11 行进 行 插入 。 查 找 阶段 的 运行 时 间 是 (7C + Cl 
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C1 二 KK 二 KEY(P) 的 次 数 ，; 
C2= KK >>KEY(P) 的 次 数 ， 
S 二 1[ 查找 是 成 功 的 ]。 


平均 说 来 ,我 们 有 C1= 方 (C+ S) ,因为 Cl+C2=C, 有 日 C1-S 有 和 C2 相同 的 概 


率 分 布 。 所 以 运行 时 间 大 约 是 (7.SC-2.$SS+4)x。 这 优 于 使 用 一 株 隐 含 树 的 二 
分 查找 算法 (参见 程序 6.2.1C)。 通 过 像 在 程序 6.2.1F 中 那样 拷贝 代码 ,我们 可 以 
消去 程序 工 的 行 08, 使 运行 时 间 减 少 到 (6.5C 一 2.5S +5)u。 如 果 查 找 是 不 成 功 
的 , 则 程序 的 插入 阶段 额外 耗费 时 间 14w 或 15u。 

算法 工 很 容易 修改 为 适用 于 可 变 长 的 键 码 和 可 变 长 的 记录 。 例 如 ,如果 我 们 以 
后 进 先 出 方式 顺序 地 分 配 可 利用 的 空间 , 则 不 难 建 立 大 小 可 变 的 节点 ;(1) 中 的 头 一 
个 字 可 指出 大 小 。 由 于 以 树 为 基础 的 符号 表 算 法 能 有 效 地 使 用 存储 ,在 编译 程序 、 
汇编 程序 以 及 装 入 程序 中 使 用 这 种 方法 是 特别 有 了 吸引 力 的 。 


但 最 坏 情 况 如 何 呢 ? 当 程 序 员 们 第 一 次 看 到 算法 时 ,通常 是 怀疑 它 的 。 如 采 
图 10 的 键 码 是 以 字符 顺序 AQUARIUS,… ,VIRGO 而 不 是 以 历法 顺序 CAPRICORN ,…， 
SCORPIO0 记 入 树 中 的 , 则 算法 将 构造 出 一 个 实质 上 确定 一 个 顺序 查找 的 晓 化 树 ,所 有 
LLINKs 将 是 空 的 。 类 似 地 ,如 果 键 码 以 古怪 的 次 序 
AQUARIUS, VIRGO, ARIES, TRURUS , CANCER, SCORPIO , CRPRICORN , PISCES , GEMINI, 
LTBRRA ,LEO 
出 现 , 则 我 们 得 到 同样 坏 的 “Z” 字 形 弯 弯曲 曲 的 树 。( 请 试 一 下 1!1) 


另 一 方面 ,图 10 中 特殊 的 树 ,对 一 次 成 功 的 查找 ,平均 仅 需要 3 站 次 比较 ;这 仅 


仅 比 最 好 的 二 又 树 中 所 能 达到 的 极 小 平均 比较 数 3 稍 大 一 扣 。 

当 我 们 有 了 一 株 相当 平衡 的 树 时 ,查找 时 间 大 体 上 与 logN 成 正比 。 但 当 我 们 
有 一 株 晓 化 树 时 ,查找 时 间 大 体 却 与 N 成 正比 。 习 题 2.3.4.5 一 5 证 明 , 如 果 把 每 
株 N 节点 的 二 叉 树 都 当 作 是 同等 可 能 的 , 则 平均 查找 时 间 将 大 约 同 VN 成 正比 。 
对 于 算法 工 我 们 实际 上 能 预期 什么 特性 呢 ? 

幸而 ,可 以 证 明 , 如 果 诸 键 码 是 以 随机 次 序 插入 树 中 的 , 则 树 查找 将 仅 需 要 大 约 
2 ln N 守 1.386 lg N 次 比较 。 平 衡 树 是 普遍 的 ,而 旷 化 树 则 是 非 凋 稀少 的 。 

关于 这 一 事实 ,出 人 意料 ,有 一 个 简单 的 证 明 。 我 们 假定 ,在 NN 个 键 码 的 NN! 种 
可 能 的 次 序 中 ,每 一 种 都 有 同等 可 能 用 作 插 入 序列 以 构造 一 株 树 。 找 出 一 个 键 码 所 
需要 的 比较 次 数 , 恰 比 把 此 键 码 记 入 树 所 需要 的 比较 次 数 多 1。 因 此 ,如果 CN 是 一 
次 成 功 的 查找 中 的 平均 比较 次 数 , 且 Cw 是 在 一 次 不 成 功 的 查找 中 的 平均 比较 次 
数 , 则 我 们 有 

Cy 1+ tC (2) 
但 是 ,内 部 和 外 部 路 径 长 度 之 间 的 关系 式 告诉 我 们 
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CN = EL+ 方 jck-1 (3) 
就 是 等 式 6.2.1- (2)。 把 (3) 同 (2) 合 在 一 起 得 到 
(N+1)CN=2N+Co+CI+…+CN-l (4) 


这 个 递 推 式 容易 解 出 。 减 少 等 式 
NC = 2(N -1)+C +CI + + CN, 
得 到 
(N+1)CNw- NCN1 = 2+ CN 
因此 CN = CN_ +2/(N+1) 
由 于 C6=0, 这 意味 着 


Cv = 2Hny1 一 2 (S) 
应 用 式 (3) 并 进行 简化 即 得 到 所 希望 的 结果 
Cy = 2[1+ NHy -3 (6) 


下 面 的 习题 6.7 和 8 给 出 更 详细 的 信息 ;有 可 能 计算 Cy 和 Cw 精确 的 概率 分 布 ,而 
不 仅仅 是 平均 值 。 


树 插 入 排序 算法 工 是 为 了 进行 查找 而 设计 的 ,但 它 也 可 用 作 内 部 排序 算法 的 
基础 ;事实 上 ,我 们 可 以 把 它 看 作 表 插入 算法 5.2.1L 的 一 种 自然 推广 。 如 果 正 确 地 
编制 程序 , 则 它 的 运行 时 间 将 只 比 我 们 在 第 5 章 中 所 讨论 的 某 些 最 好 的 算法 略 慢 一 
点 。 在 把 所 有 的 键 码 构造 成 一 株 树 之 后 ,一 个 对 称 的 树 遍 历 过 程 (算法 2.3.1T) 将 
按 排 序 次 序 访 问 这 些 记 录 。 

然而 ,一 些 预防 措施 是 必要 的 。 如 果 在 步骤 T2 中 K = KEY(P), 则 需要 完成 一 
些 不 同 的 事情 ,因为 我 们 正在 排序 而 不 是 在 进行 查找 。 一 种 解决 方法 是 把 K = KEY 
(P) 当 成 同 K >KEY(P) 完 全 一 样 ,这 就 得 到 了 一 个 稳定 的 排序 方法 。( 相 等 的 键 码 在 
树 中 未 必 是 相 邻 的 ,它们 只 不 过 是 在 对 称 的 次 序 下 相 邻 而 已 )。 但 如 果 出 现 许 多 重 
复 的 键 码 ,这 个 方法 会 使 树 变 得 极 不 平衡 ,因而 排序 将 减 慢 。 另 一 种 想法 是 对 每 一 
个 节点 ,都 保持 着 具有 相同 键 码 的 所 有 记录 的 一 张 表 ;这 虽 需 要 另 一 个 链接 字段 ,但 
当 出 现 大 量 相 同 的 键 码 时 能 更 快 地 排序 。 

于 是 ,如 果 我 们 仅 对 排序 感 兴趣 ,而 对 查找 不 感 兴趣 , 则 算法 工 不 算 最 好 但 也 不 
坏 。 而 且 , 如 果 有 把 查找 和 排序 组 合 起 来 的 应 用 , 树 方法 是 可 以 热情 地 推荐 的 一 种 
方法 。 

说 明 这 一 点 是 有 趣 的 , 即 在 树 插 入 排序 的 分 析 与 快速 排序 的 分 析 之 间 有 着 很 强 
的 关系 ,尽管 这 些 方法 表面 上 毫 无 类 似 之 处 。 如 果 我 们 把 NN 个 键 码 逐次 地 插入 到 
开始 为 空 的 一 株 树 中 , 则 除了 少数 例外 ,我们 所 做 的 键 码 之 间 的 平均 比较 次 数 同 算 
法 5.2.2Q 的 相同 。 例 如 ,在 树 插 入 中 每 个 键 码 同 人 1 进行 比较 ,而 后 ,小 于 Ki 的 每 
个 键 码 同 小 于 开 , 的 第 一 个 键 码 进行 比较 ,等 等 ;在 快速 排序 中 ,每 一 个 键 码 同 头 一 
个 分 划 元 素 K 进行 比较 ,而 后 ,小 于 K 的 每 个 键 码 须 同 小 于 的 一 个 特殊 元 素 进 
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行 比较 ,等 等 。 在 这 两 种 情况 下 所 作 的 平均 比较 数 都 是 NC、v - N。( 然 而 ,算法 
5.2.2Q 实际 上 稍微 多 做 了 一 点 比较 ,为 的 是 加 速 内 循环 )。 


删 去 “有 时 我 们 要 使 计算 机 忘记 它 所 知道 的 表 中 的 一 项 。 我 们 能 很 容易 地 删 
去 其 中 LLINK= 人 或 RLINK= A 的 一 个 节点 ;但 当 两 个 子 树 都 是 非 空 时 ,就 要 做 些 特 
殊 处 理 ,因为 我 们 不 能 一 次 指向 两 条 路 。 

例如 ,再 次 考虑 图 10; 我 们 如 何 删 去 根 节点 摩羯 座 (CAPRICORN) 呢 ? 一 个 解决 方 
法 是 删 去 在 字典 次 序 下 的 下 一 个 节点 , 它 总 有 一 个 空 的 LLINK, 然 后 重新 把 它 插入 以 
代替 我 们 真正 要 删 去 的 节点 。 例 如 ,在 图 10 中 ,我 们 可 以 删 去 双子 座 (GEMINI), 然 
后 以 双子 座 (GEMINI) 来 代替 摩羯 座 (CAPRICORN)。 这 个 操作 保持 了 表 中 各 项 必要 的 
目 左 到 右 的 次 序 。 下 列 算法 给 出 了 这 样 一 个 删 去 过 程 的 详细 描述 。 


算法 D ( 树 删 去 ) 设 Q 是 一 个 变量 , 它 指 向 如 算法 工 中 所 表示 的 二 分 查找 树 
的 一 个 节点 。 本 算法 删 去 该 节点 ,保留 一 株 二 分 查找 树 。( 实 际 上 ,在 树 的 某 个 节点 
中 ,我 们 将 有 Q= ROOT 或 6 圭 LLINK(P) 或 0 二 RLINK(P)。 这 个 算法 在 存储 中 重 置 Q 
的 值 , 以 反映 删 去 )。 
D1.LRLINK 为 空 吗 ?] 置 T<-Q。 如 果 RLINK(T) = 人, 则 置 Q<-LLINK(T) 并 转 到 
D4。( 例 如 ,如 果 对 于 某 个 P,Q 圭 RLINK(P), 则 我 们 将 置 PLINK(P)<-LLINK 
(T) )。 
D2. | 找 后 继 者 ] 置 R<-RLINK(T)。 如 果 LLINK(R) = 入 , 则 置 LLINK(R)<LLINK 
(T) ,Q<eRR ,并 转 到 D4。 
D3 .| 找 空 的 LLINK] 置 S<-LLINK(R)。 然 后 ,如 果 LLINK(S) 关 A, 则 置 R<-S 并 
重复 这 一 步骤 直到 LLINK(S) = 人 为 上 。( 这 时 ,Ss 将 等 于 Q$ , 即 Q 的 对 称 的 
后 继 者 )。 最 后 , 置 LLINK(S)<—LLINK(T),LLINK(R)<-RLINK(S) ,RLINK(S ) -< 一 
RLINK(T) ,O<-S。 
D4. [释放 此 节点 ] 置 AVAIL<<T, 于 是 把 删 去 的 节点 送 回 到 可 用 存储 空间 中 。 
| 


读者 可 能 希望 通过 删 去 图 10 中 的 宝 瓶 座 (AQUARIUS)\ 巨 蟹 座 (CANCER) 和 摩羯 
座 (CAPRICORN) 来 试验 这 个 算法 ;每 种 情况 是 稍微 不 同 的 。 一 个 机 灵 的 读者 可 能 已 
经 注意 到 ,对 于 RLINK(T) 关 A,LLINK(T) = 人 的 情况 没有 进行 任何 特殊 的 判断 ;我 们 
将 把 这 一 情况 的 讨论 推迟 到 稍 后 进行 ,因为 这 一 算法 有 着 某 些 非常 有 趣 的 性 质 。 

由 于 算法 D 左 右 两边 很 不 对 称 , 有 理由 认为 一 连 串 的 随机 删 去 和 插 和 人 将 使 树 失 
去 平衡 ,从 而 使 我 们 已 经 作出 的 有 效 性 估计 成 为 不 正确 的 。 但 是 事实 上 , 删 去 绝 不 
会 使 树 晓 化 ! 


定理 H (T.N.Hibbard,1962) 通过 算 小 刀 从 一 柳 矿 机 检 栅 去 一 个 随机 元 吉之 
后 ,得 到 的 三 仍 是 随机 的 。 
[不 是 学 数学 的 读者 ,请 跳 到 (10)。] 当然 ,要 承认 这 个 定理 的 叙述 是 非常 含混 
的 。 我 们 可 以 更 精确 地 概述 这 一 情况 如 下 : 设 开 是 ”个 元 素 的 一 株 树 , 且 P(T) 是 
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当 由 算法 工 以 随机 次 序 插 入 人 的 键 码 时 ,T 出 现 的 概率 。 有 些 树 的 出 现 概率 可 能 
比 其 它 大 些 。 命 Q(T) 是 通过 算法 工 以 随机 次 序 播 人 7+1 个 元 索 , 而 后 通过 算法 
D 随机 地 选择 其 中 一 个 元 素 并 把 它 删 去 时 ,了 将 出 现 的 概率 。 在 计算 P( 古 ) 时 ,我 
们 假定 键 码 的 n! 种 排列 是 同等 可 能 的 ;在 计算 Q(T) 时 ,假定 原来 的 ”个 键 码 和 准 
备 删 去 的 键 码 的 (n +1)!(n +1) 种 排列 是 同等 可 能 的 。 此 定理 指出 ,对 所 有 械 ， 
P(T)= Q(T)。 

证 明 ”我 们 面 对 着 这 样 一 个 事实 , 即 诸 排列 是 同等 可 能 的 ,而 诸 树 不 一 定 , 因 
此 我 们 将 通过 把 排列 当 作 随 机 对 象 来 证 明 这 个 结果 。 下 面 ,给 出 从 排列 中 删 去 的 定 
义 ,而 后 再 证 明 “ 从 一 个 随机 排列 中 删 去 一 个 随机 元 素 后 仍 保 留 一 个 随机 排列 ”。 

设 a1a2…*as+1 是 {1,2,… ,n+1| 的 一 个 排列 ;我 们 要 定义 删 去 a; 的 操作 ,以 便 
得 到 |1,2,…,n| 的 一 个 排列 515，… 5,;。 这 个 操作 应 该 对 应 于 算法 本 和 DD, 使 得 如 
果 我 们 首先 通过 插入 序列 al ,a,,… ,a,+! 构 造 一 株 树 ,然后 删 去 ac;; 并 对 剩 下 的 键 
码 按 1 一 ”的 次 序 重 新 编号 时 , 便 得 到 由 5165，,…6。; 构造 的 树 。 

不 难 定义 这 样 一 个 删 去 操作 。 有 下 列 两 种 情况 。 

情况 1: a;= n+1, 或 对 某 个 j<i,a;+1= 4a。( 这 实质 上 是 条 件 “RLINK(a;) 
= A”)。 从 这 个 序列 撤销 a, ,并 把 每 个 大 于 a; 的 元 素 减 1。 

情况 2 . 对 某 个 j i,a; 十 荆 三 Qij o 以 a;j 代替 a,, 从 Qj 原来 的 位 置 撤销 a; ,并 把 
每 个 大 于 a; 的 元 素 减 1。 

例如 :假设 我 们 有 排列 461352。 如 果 把 待 删 去 的 元 素 画 上 圆圈 , 则 有 


@D6 1352=45132 461@52=35 142 
4®@1352=41352 4613®@2=45132 
46@352=35124 46135®@=35124 


因为 有 (n+1)!(n +1) 个 可 能 的 删 去 操作 ,所 以 如 果 能 够 证 明 |1,2,… ,nn} 的 每 一 排 
列 恰 是 (n +1)? 次 删 去 的 结果 , 则 定理 得 证 。 

设 b16，…b; 是 和 1,2,…,n| 的 一 个 排列 。 我 们 将 定义 (n + 1)* 次 删 去 ,其 中 涨 
足 1 二 i,j 三 n+1 的 每 一 对 偶 i,j 对 应 一 次 删 去 ,如 下 : 

如 果 i 之 j, 则 删 去 是 


bb 0) oir bji(bi + 1)6;°*b, (7) 


这 里 如 以 下 所 示 ,依赖 于 5b 是否 小 于 划 了 圈 的 元 素 ,bs 表示 6b4 或 bi + 1。 这 个 删 去 
对 应 于 情况 2。 
如 有 果 i >>j, 则 删 去 是 
p16 1 ) bi b, (8) 
这 个 删 去 满足 情况 1 的 定义 。 
. 403 ， 


第 6 章 查找 





最 后 ,如果 i=j, 则 我 们 又 有 另 一 个 情况 1 的 删 去 , 即 


bhi G+ Ib b, (9) 
例如 , 设 n=4 并 考虑 映射 为 3142 的 25 次 删 去 
1 三 1 2Z 一 2 2 二 3 1 三 4 12 一 人 


O3142 4@152 41@52 415@2 4152@ 
S4152 3 ©142 42Q@D53 425@3 4253Q@ 
@1452 4@253 31 包 42 315@2 3152@ 
1542 4@523 31@52 314®2 4153® 
@1524 4Q@532 31@25 415®3 3142@® 

划 圈 的 元 素 总 在 位 置 i 处 , 且 对 于 固定 的 i 我 们 已 经 构造 了 n +1 个 不 同 的 删 
去 ,每 个 j 对 应 一 个 删 去 ;因此 对 每 个 排列 65156,…6, 已 经 构造 了 (n+1)? 个 不 同 的 
删 去 。 因 为 仅仅 可 能 有 (n+1)?*n! 个 删 去 ,故我 们 必然 已 经 找到 了 它们 的 全 部 。1 


和 定理 五 的 证 明 不 仅 告诉 我 们 删 去 的 结果 ,而 且 也 有 助 于 我 们 分 析 一 次 删除 中 
的 平均 运行 时 间 。 习 题 12 证 明 , 当 从 一 个 随机 表 中 删 去 一 个 随机 元 素 时 ,平均 说 
来 ,我 们 可 期 望 执行 步骤 D2 的 次 数 稍 少 于 这 时 间 的 一 半 。 

现在 考虑 步骤 D3 中 循环 执行 的 频繁 程度 :假设 我 们 正在 删 去 1 级 上 的 一 个 节 
尽 , 而 且 在 对 称 次 序 下 直接 跟随 的 外 部 节点 在 级 上 。 例 如 ,如 果 我 们 从 图 10 删 去 
摩羯 座 (CAPRICORN) , 则 有 71=0 和 &=3, 因 为 节点 [4 在 级 3 上 。 如 果 上 = 1+1, 则 在 
步骤 D1 中 有 RLINK(T) = 和 A; 而 如 果 大 >7+1, 则 我 们 将 在 步骤 D3 中 置 S< LILINK 
(R) 恰 好 一 1 一 2 次 ,7 的 平均 值 是 (内 部 路 径 长 度 )/Ni 的 平均 值 是 (外 部 路 径 长 
度 - 到 最 左 外 部 节点 的 距离 )/N。 到 最 左 外 部 节点 的 距离 是 在 插 人 序列 中 自 左 至 
右 极 小 值 的 个 数 ,所 以 , 按 1.2.10 小 节 的 分 析 ,该 距离 的 平均 值 为 H、。 由 于 外 部 路 
径 长 度 减 去 内 部 路 径 长 度 是 2N, 故 &-7Z-2 的 平均 值 是 - 及/N。 这 个 值 加 上 
-7 一 2 为 -1 的 平均 次 数 ,我 们 看 出 ,在 一 个 随机 删 去 中 , 步 取 D3 中 的 操作 5 一 
DLLINK(R) 平 均 仅 被 实施 


心心 ， 人， ，(、 
I 用 
Ch 人 OOD 


六 + -mj (10) 
次 。 这 使 人 放心 了 ,因为 最 坏 的 情况 可 能 是 相当 慢 的 (见习 题 11)。 

尽管 在 我 们 已 经 叙述 过 的 精确 形式 下 ,定理 HH 是 严格 地 正确 的 ,但 它 不 能 如 我 
们 可 能 预期 的 那样 ,应 用 到 后 边 跟 有 插入 的 删 去 序列 上 。 在 删 去 之 后 树 的 形状 是 随 
机 的 ,但 在 一 个 给 定 树 形 中 值 的 相对 分 布 可 以 变化 ,结果 是 ,在 删 去 之 后 的 头 一 次 随 
机 插入 实际 上 破坏 了 这 些 形状 的 随机 性 。 这 个 由 Gary Knott 在 1972 年 首先 发 现 的 
令 人 吃惊 的 事实 ,必须 看 成 是 可 信 的 (参见 习题 15)。 其 至 更 令 人 吃惊 的 是 由 (J.L. 
Eppinger[CACM 26 (1983) ,663 一 669 27 (1984),235] 所 收集 到 的 经 验证 握 ,他 发 现 
当 作 了 一 些 随机 删 去 和 插入 之 后 ,路 径 长 度 稍微 减少 ,但 在 实施 了 大 约 N2 个 删 去 / 
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插入 操作 之 后 , 它 却 增 加 直到 达到 一 个 稳定 的 状态 。 当 N 大 于 大 约 150 时 ,这 个 稳 
定 的 状态 比 一 个 随机 树 的 特性 还 坏 ,由 Culberson 和 Munro [Comp.J. 32(1989) ,68 
一 75;Algorithmica 5 (1990) 295 一 311] 所 作 的 研究 已 经 导致 了 这 样 一 个 似 真 的 猜 
测 , 即 在 稳定 状态 下 的 平均 查找 时 间 近 似 地 为 V2N/9r。 然 而 ,Eppinger 还 设计 了 
一 个 简单 的 修改 , 它 在 算法 DD 与 同一 个 算法 的 左右 反射 之 间 交 蔡 ; 他 发 现 , 这 导致 了 
一 个 杰出 的 稳定 状态 ,其 中 的 路 径 长 度 减少 到 对 于 随机 树 它 的 正常 值 的 大 约 88%。 
关于 这 个 特性 仍然 缺乏 理论 的 说 明 。 

如 上 所 述 ,尽管 当 LLINK(T) = A 时 是 变 得 容易 的 情况 之 一 ,但 算法 D 对 此 不 作 
检验 。 我 们 可 以 在 Dl 和 D2 之 间 增 加 一 个 新 步骤 , 即 


D 1 计 . [LLINK 是 空 的 吗 ?] 如 果 LLINK = A, 则 置 Q<RLINK(T) 并 转 到 D4。 


习题 14 说 明 ,磁带 有 额外 步骤 的 算法 D, 在 路 径 长 度 的 意义 下 ,使 树 至 少 保持 
像 在 原来 的 算法 D 中 那样 好 ,而 且 有 时 结果 甚至 会 更 好 。 当 把 这 个 思想 同 Eppinger 
的 对 称 删 去 策略 相 结 合 时 ,对 于 重复 的 随机 删 去 /插入 操作 的 稳定 状态 路 径 长 度 减 
少 到 它 的 只 有 插入 时 的 值 的 大 约 86%。 


访问 的 频率 ”至 今 我 们 已 经 假定 ,每 个 键 码 具有 同等 可 能 作为 一 个 查找 变 元 。 
在 一 种 更 为 一 般 的 情况 下 , 设 ps 是 要 查找 第 & 个 插入 元 素 的 概率 ,其 中 pl +…+ 
pn 二 1。 则 如 果 我 们 保留 随机 次 序 的 假定 使 树 的 形状 保持 随机 且 等 式 (5) 成 立 的 话 
等 式 (2) 的 一 个 直截了当 的 修改 表明 ,在 一 次 成 功 的 查找 中 平均 比较 次 数 将 是 


N N 
1 + > pi(2H, — 2) = 2 pH, -1 (11) 
k=1 k=1 


例如 ,如 果 概 率 遵守 Zipf 定律 等 式 6.1 一 (8), 并 按 重要 性 递减 的 次 序 插 入 键 码 
时 , 则 平均 比较 次 数 减少 为 


Hn -1+ HN/Hy (12) 


(见习 题 18)。 这 大 约 等 于 按 相 等 频率 分 析 所 预期 的 比较 数 的 一 半 , 而 且 它 比 我 们 
使 用 二 分 查找 的 比较 数 还 要 少 些 。 

图 12 示 出 , 当 31 个 最 常用 的 英文 字 按 频率 递减 的 次 序 记 入 时 所 得 到 的 树 。 使 
用 由 H.F.Gaines 所 著 Cryptanalysis (纽约 :Dover 1956),226 所 作 统 计 ,对 每 个 字 亦 
给 出 其 相对 频率 。 在 这 株 树 中 ,每 次 成 功 查找 的 平均 比较 次 数 是 4.042; 而 利用 算 
法 6.2.1B 或 6.2.1C 的 对 应 的 二 分 查找 ,将 需要 4.393 次 比较 。 


最 优 二 分 查找 树 ”这 些 考虑 使 得 提出 ,对 于 给 定 的 诸 频率 ,给 出 查找 诺 键 码 的 
一 个 表 的 最 好 树 的 问题 , 变 得 十 分 自然 。 例 如 ,图 13 示 出 对 于 31 个 最 普通 的 英文 
词 的 最 优 树 ; 对 于 一 个 平均 的 成 功 查 找 , 它 仅 要 求 3.437 次 比较 。 
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15568 
(or 7 Cm) 
9767 a 
Cam ) Ct) Gus) (Cam 
7638 017 1021 1849 
C4) IN ) Cy) 
5074 4312 1155 1761 1336 
(CI) (oR ) 
22%2 2509 1101 1291 
(FOR ) 
1869 274 
(hs ) HIS) CoT ) 
853 1732 4906 
CaRE ) 人 了 至) 
1222 535 17 
(7) CBr) 
1053 1392 1344 1093 
(BUT ) CHD 
1379 1062 
(FRON ) 
1039 
图 12 ”31 个 最 常用 的 英文 字 , 以 频率 减少 的 次 序 插入 
CoF ) 
9767 
(FOR ) (THE ) 
1869 15 
Ca ) (IN) Cr) (CT) 
4312 017 739 
7638 
(HE ) CT) Con) Cs) (CuI) 
S074 1535 1727 2255 1155 1021 1849 
(BY ) Cp) (ums) 人 Is Crou ) 
1853 1392 1062 1732 2509 1496 1101 1761 1336 
Ci ) Cayor) CERON) (HAVE) (Hep) 
1222 1053 1379 1039 1344 1093 2292 1291 


13 31 个 最 常用 英文 字 的 最 优 查 找 树 
现在 ,我 们 来 剖析 寻 过 最 优 树 的 问题 。 例 如 , 当 N =3 时 ,假定 键 码 开 ; < 天 2< 
Ks 的 概率 分 别 为 p,q,r, 则 有 五 种 可 能 的 树 形 : 


I lI III TV V 
由 由 人 四 
费用 : 3p 二 24 二 r ”2P 十 39 十 7 2D 十 4 十 27 p+3gt+2r p+2g+3r 
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图 14 标 出 了 使 每 株 树 是 最 优 的 p,q,r 的 范围 ;如 果 我 们 随机 地 选择 p,q ,r， 
则 平衡 的 树 大 约 有 45% 的 可 能 是 最 好 的 (见习 题 21)。 


A(0 1,0) 





2 (0,0, 1) 


(1,0, 0) (0 了) 
图 14 ”如 果 (K1,K,,K;) 的 相对 频率 是 (p,g,r), 则 此 图 指出 (13) 的 五 株 树 中 哪 一 株 是 最 好 的 。 
虽然 有 三 个 坐标 ,但 p+ go+ r=1 使 这 个 图 形变 成 二 维 的 
可 惜 , 当 N 很 大 时 ,有 
N 3/2 
(N+ De~ /WiN) 
株 二 叉 树 ,所 以 我 们 不 可 能 全 都 试验 它们 并 看 出 哪 一 株 是 最 好 的 。 因 此 我 们 来 更 仔 
细 地 研究 一 下 最 优 二 分 查找 树 的 性 质 ,以便 发 现 找 出 它们 的 一 个 更 好 的 方法 。 

至 今 ,我 们 只 考虑 了 一 次 成 功 的 查找 的 概率 ;实际 上 ,通常 也 必须 考虑 不 成 功 的 
情况 。 例 如 ,图 13 中 的 31 个 字 仅 考 虑 了 典型 的 英文 课本 中 大 约 36% 的 情况 ;其 余 
64% 的 情况 肯定 将 影响 最 优 查找 树 的 结构 。 

因此 ,让 我 们 以 如 下 的 方式 来 提出 问题 :给 定 22”+1 个 概率 2 a 利 
40;d1,，"""，Gn ,其 中 

pi; = 查找 变 元 是 K; 的 概率 ，; 

g; = 查找 变 元 处 于 K, 和 KK,; ,之 间 的 概率 。 

(由 约定 ,qo 是 查找 变 元 小 于 Ki 的 概率 ,gq, 是 查找 变 元 大 于 KK, 的 概率 。) 于 是 ,pI 
+ p+ 二 p+ qot+ gi+… 十 gq 三 1, 我 们 要 寻找 一 株 二 叉 树 , 它 使 查找 中 预期 的 
比较 次 数 


2 pllevel( ©) + 1) + Dg, level([®]) (14) 


极 小 化 ,其 中 中 是 在 对 称 次 序 下 的 第 j 个 内 部 节点 ,|&| 是 第 (+1) 个 外 部 节点 , 根 
的 级 为 0。 于 是 ,对 于 二 又 树 
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(15) 





预期 的 比较 次 数 是 2gqo0+2p1+3g1+3p ;+3g + p3+ qao 我 们 称 此 为 树 的 费用 ; 具 
有 极 小 费用 的 树 称 为 是 最 优 的 。 在 这 个 定义 之 下 ,无 需要 求 诸 和 q 的 和 为 1 ,对 
任何 给 定 的 “ 权 ” 序 列 (p1,… ,pp,;9o，,"… ,qn), 我 们 可 寻求 相应 的 极 小 费用 的 树 。 

我 们 已 经 在 2.3.4.5 小 节 中 研究 了 构造 具有 极 小 加 权 路 径 长 度 树 的 Huffman 
过 程 ; 但 该 方法 要 求 所 有 的 p 缘 为 0, 且 在 它 产 生 的 树 上 ,其 外 部 节点 的 权 (qo，…， 
qu,) 通 常 不 是 严格 地 按 从 左 到 右 的 对 称 次 序 排 列 的 。 因 此 ,我 们 需要 另外 的 方法 。 

有 一 个 原理 能 帮助 我 们 ,这 就 是 ;一 株 最 优 树 的 所 有 子 树 都 是 最 优 的 。 例 如 ,如 
果 (15) 对 于 权 ( pi1, ps,p3; go,91,92,93) 是 一 株 最 优 树 , 则 这 个 根 的 左 子 树 必然 是 
对 于 (pi1,p2; qo,91,92) 为 最 优 的 ;对 一 株 子 树 的 任何 改进 必然 导致 对 整 株 树 的 改 
进 。 

这 一 原理 提示 了 一 个 计算 过 程 , 它 系 统 地 寻 道 越 来 越 大 的 最 优 子 树 。 我 们 在 
5.4.9 小 节 已 经 使 用 同样 的 思想 来 构造 最 优 的 合并 形式 ;一 般 的 方法 称 做 “动态 规 
划 ”, 我 们 将 在 7.7 节 作 进一步 的 考虑 。 

设 c(i,j) 是 具有 权 (p;+1,… ,pj;;9;,…, 9;) 的 一 株 最 优 子 树 的 费用 ; 生 w(i,]) 
= pir1t+ 十 p;+q;t+*… 二 + gq; 是 所 有 那些 权 的 和 ;于 是 c(i,j) 和 w(i,j) 定 义 于 0 
二 i 全 j 二 n 上。 由 此 得 出 

c(i,i)=0 

Cc(2,)) = wi,7)+ Min (cli,k 一 1)+c(k,j))， 对 于 i<<j (16) 
因为 具有 根 反 的 一 株 树 可 能 达到 的 极 小 费用 是 w(i,j)+c(i,k-1)+c(k,;))。 当 
i<j 时, 设 R(i,j) 是 使 (16) 中 的 极 小 值 能 达到 的 所 有 的 集合 ;这 个 集合 确定 了 
诸 最 优 树 的 可 能 的 根 。 


等 式 (16) 使 我 们 能 对 j 一 i=1,2,…,n 计算 c(i,j); 大 约 有 地 7 个 这 样 的 值 ， 


且 对 大 约 去 m3 个 值 实现 了 极 小 化 操作 。 这 意味 着 我 们 能 利用 O(n?) 个 存储 单 


元 ,在 O(n’) 个 时 间 单 位 中 确定 一 株 最 优 树 。 
实际 上 ,如 果 我 们 利用 一 个 “单调 性 ”的 性 质 , 则 即 可 从 运行 时 间 中 消去 一 个 因 
子 n。 设 r(i,j) 表 示 R(i,j) 的 一 个 元 素 ; 我 们 不必 计算 整个 集合 R(i,j), 只 计算 
一 个 代表 元 素 就 够 了 。 一 旦 找到 yx(i,j 一 1) 和 7r(i+1,;), 则 习题 27 的 结果 证 明 ， 
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当权 非 负 时 ,我 们 总 可 以 假定 

r(i,j —1)r(i,j)r(it+1,7) (17) 
由 于 (16) 中 只 需 考察 r-(i+1,7) 一 r(i,j 一 1)+1 个 而 不 是 ;一 i 个 人 和 值 ,这 就 限制 
了 极 小 值 的 查找 范围 。 当 ) -i=4 时 ,总 工作 量 便 以 缩短 的 级 数 


>，(rGi+l 让 -ri -1)+1)= 
:SS 


r(n—dt+l,n)-—-r(0,d-1)+n-d+l1<2n 
为 界 , 因 此 总 的 运行 时 间 已 减少 到 O(n”)。 
下 面 的 算法 详细 地 描述 了 这 一 过 程 。 


算法 K ( 求 最 优 的 二 分 查找 树 ) ”给 定 2n + 1 个 非 负 的 权 (pi1,…，, pp,; go,…， 
qn) ,本 算法 构造 二 又 树 1: (i,j), 它 在 上 述 定义 的 意义 下 ,对 于 权 (pi41,*… ,pj;; qi， 
… ,gq; ) 有 极 小 的 费用 。 要 计算 三 个 数组 , 即 
cli,jj], 对 于 0 过 i 过 jj 过 nn,:(i,j) 的 费用 
rli,jj, 对 于 0 过 i 过 7 过 n, :i(i,j) 的 根 
w[i,jj], 对 于 0 过 i 过 7j 志 nn, 1(i,j) 的 总 权 
这 个 算法 的 结果 由 数组 > 指明 :如 果 i=j, 则 2z(i,j) 为 空 ;否则 它 的 左 子 树 是 1 (i， 
rLi,jj] 一 1), 它 的 右 子 树 是 i (r[i,j],j)。 
K1. [初始 化 ] 对 于 0 二 i 过 nn 置 c[i,i]<0, 和 wl[i,ij] 一 gq;, 对 于 j=i+1,…， 
n 置 wli,jj 一 wlLi,j 一 1]+ p; + g;o。 然后 ,对 于 1j 二 nn 置 c[j 一 1,j] 一 
w[j 一 1,7j 以 及 rLj 一 1,7j] 一 j( 这 确定 所 有 一 个 节点 的 最 优 树 )。 
K2.[ 对 4 循环 ] 对 4 =2,3,…,n 执行 步骤 K3 ,然后 结束 该 算法 。 
K3.[ 对 7 循环 ] (我 们 已 经 确定 了 少 于 4 个 节点 的 最 优 树 ,这 个 步骤 确定 所 有 
ad 个 节点 的 最 优 树 。) 对 于 J)=w,d+1l,…，,2 进行 步骤 K4。 
K4.[ 求 c[i,jj,r[li,j]] 置 i 一 ;)--4d, 然 后 置 c[i,j] 一 wli,jj]+ 
minrri it<k<riiraicli -1 +clR, jj)。 并 且 置 xrLi,j |] 为 使 极 小 值 
出 现 的 一 个 & 值 (习题 22 证 明 ,r[i,j--1] 寺 rl[i+1,;7]) | 
作为 算法 K 的 一 个 例子 ,考虑 图 15, 它 是 以 “上 下 文中 的 键 码 "(KWIC) 索 引 应 
用 为 基础 的 。《ACM 杂志 》 头 十 卷 中 所 有 论文 的 标题 ,被 排序 并 编制 成 一 个 重要 的 
词汇 索引 ,其 中 每 个 标题 的 每 个 字 都 有 一 行 。 然 而 有 些 字 ,如 “THE” 和 “EQUA- 
TION 被 认为 并 不 包含 多 少 信 息 , 故 从 索引 中 省 去 。 在 图 15 的 内 部 节点 上 标 出 了 
这 些 特殊 字 和 它们 出 现 的 频率 。 注 意 , 像 “对 于 某 个 新 闻 题 的 一 个 方程 的 解 ” 这 样 的 
标题 ,由 于 完全 不 提供 任何 信息 ,所 以 根本 不 出 现在 索引 中 ! KWIC 索引 的 思想 ,来 
源 于 H.P.Luhn,Amer. Documentation 11(1960) ,288 一 29$( 见 双 .W.Youden,JACM 
10 (1963),583 一 646, 其 中 有 完全 的 KWIC 索引 )。 

当 为 排序 准备 一 个 KWIC 索引 文件 时 ,我 们 可 能 希望 用 一 株 二 分 查找 树 , 以便 
检验 每 个 特定 的 字 是 否 应 被 编 人 索引 。 其 它 的 字 落 在 两 个 未 编 索 引 的 字 之 间 ,其 频 
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图 15 用 于 一 个 KWIC 索引 的 一 株 最 优 二 分 查找 树 


率 在 图 15 的 外 部 节点 上 标 出 ;例如 ,在 1954 一 1963 年 期 间 出 现在 JACM 的 标题 中 
的 字母 处 于 “PROBLEMS” 和 和 “SOLUTION" 之 间 的 恰 有 277 个 字 。 

15 示 出 了 n =35 时 ,由 算法 K 得 到 的 最 优 树 。 对 于 j=1,2,…,35,r[0,j] 
的 计算 值 是 (1,1,2,3,3,3,3,8,8,8,8,8,8,11,11,…,11,21,21,21,21,21,21); 对 
于 i=0,1,…,34,r[i,35] 的 值 是 (21,21,…,21,25,25,25,25,25,25,26,26,26,， 
30,30,30,30,30,30,30,33,33,33,35,35)。 

“中 间 性 频率 ”9 对 于 最 优 树 结 构 产 生 一 个 值得 注意 的 影响 。 图 16(a ) 示 出 了 
置 vi 为 0 时 所 得 到 的 最 优 树 。 类 似 地 ,内 部 频率 p; 是 重要 的 ;图 16(65) 示 出 了 当 p; 
被 置 成 0 时 的 最 优 树 。 考 虑 全 部 频率 的 集合 ,平均 说 来 ,图 15 的 树 仅 需要 4.15 个 
比较 ,而 图 16 的 树 则 分 别 要 求 4.69 和 4.55 个 比较 。 

由 于 算法 K 要 求 时 间 和 空间 同 n? 成 正比 ,因此 当 n 变 得 很 大 时 , 它 就 成 为 不 
实用 的 了 。 当 然 ,鉴于 在 这 一 章 稍 后 有 待 讨论 的 其 它 查 找 技术 ,我 们 对 于 很 大 的 n 
可 能 不 真正 使 用 二 叉 树 ;但 仍然 假定 ,要 在 ”很 大 时 找 一 棵 最 优 的 或 接近 于 最 优 的 
二 又 树 。 

我 们 已 经 看 到 ,以 递 降 的 频率 顺序 插入 键 码 的 思想 ,平均 说 来 可 以 产生 相当 好 
的 树 ;但 由 于 不 利用 gq; 个 权 , 它 也 可 能 非常 之 坏 ( 见 习题 20), 而 且 它 不 是 经 常 地 接 
近 于 最 优 。 另 一 个 方法 是 选择 根 有 ,使 得 到 的 极 大 子 树 权 max(w(0,k 一 1),w(&， 
n)) 尽 可 能 小 。 这 个 方法 也 会 是 相当 差 的 ,因为 可 能 选择 一 个 具有 非常 小 的 pi 的 
节点 作为 根 ;然而 ,下 面 的 定理 M 证 明 , 得 到 的 树 将 不 会 离 最 优 极 其 遥远 。 

正如 W. A. Walker 和 C.C. Gotlieb [Graph Theory and Computing (Academic 
Press,1972) ,303 一 323 ] 所 提议 的 ,把 这 两 个 方法 组 合 起 来 ,可 以 得 到 一 个 更 令 人 满 
意 的 过 程 :尝试 使 左边 和 右边 的 权 相 等 ,但 准备 把 根 向 左 或 向 右 移动 几 步 ,以 找 出 其 
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图 16 在 图 15 的 一 半数 据 基础 上 的 最 优 二 分 查找 树 
(a) 外 部 频率 为 0;(b) 内 部 频率 为 0。 
有 相当 大 的 pi 的 一 个 节点 。 图 17 示 出 为 什么 这 个 方法 是 有 道理 的 :如 果 对 图 15 
的 KWIC 数据 ,把 ce(0,k 一 1) + c(k,n) 画 作 & 的 一 个 函数 , 则 我 们 看 到 结果 对 于 
ps 的 数量 级 是 十 分 敏感 的 。 

当 n 很 大 时 ,这 样 一 个 “由 顶 向 下 ”的 方法 ,可 用 来 选择 根 , 然 后 再 处 理 左 子 树 和 
石子 树 。 当 我 们 达到 一 株 充 分 小 的 子 树 时 ,就 可 以 应 用 算法 K。 这 样 的 方法 产生 相 
当 好 的 树 ( 据 报告 与 最 优 的 树 相差 不 到 百 分 之 二 或 三 ) ,并 且 它 只 需要 O(n) 个 空间 
单位 和 O(nlogn ) 个 时 间 单 位 。 事 实 上 ,M. Fredman 已 经 证 明 ， 如 果 使 用 正确 的 数 
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图 17 作为 根 & 的 一 个 函数 的 费用 特性 
据 结 构 , O(n ) 个 时 间 单 位 就 足够 LSTOC 7(197$) ,240 一 244]。 参 见 K. Mehlhorn ， 
Data Structures and Algorithms 1 (Springer,1984),4.2 广 。 


最 优 树 与 粮 ” 极 小 费用 和 称 做 炉 的 一 个 数学 概念 密切 相关 , 它 是 由 Claude 
Shannon 在 他 关于 信息 论 的 杰出 论文 中 引进 的 LBell System Tech.J. 27 (1948),379 
一 423,623 一 656]。 如 果 p1,p，,…p, 是 概率 且 zi+ p+…+ pp 三 1。 我 们 由 公式 


H(pi,p2,°"*, pn) = > pleF (18) 


定义 炉 电 (p1,p，,…,p,)。 直 观 地 说 ,如 果 n 个 事件 是 可 能 的 且 第 & 个 事件 以 概率 
ps 出 现 ， me, 当 第 & 个 事件 已 出 现时 ,我们 已 接收 了 lg(1/pi) 位 的 信息 。 


(概率 为 地 > 的 一 个 事件 给 出 5 个 信息 位 ,等 等 )。 于 是 , 旷 (p1, bp， ,pa) 是 在 一 个 
随机 事件 中 也 页 期 的 信息 的 位 数 。 如 果 如 =0, 我 们 定义 pilg(1/pi)=0, 因 为 

. “1 . 1 

lim elg — 一 lim lgm = 0 
这 个 约定 允许 我 们 在 某 些 概率 为 0 时 来 使 用 (18)。 


函数 zlg(1/z) 是 种 的 ; 即 , 它 的 二 阶 导数 -1/(zln2) 为 负 。 因 此 , 当 zi = p= 
ps 一 1/n 时 ,及 (pi,p2,…,p,) 的 极 大 值 出 现 。 即 
于 [二 ,二 = lg nn (19) 
一 般 地 说 ,如 果 我 们 确定 pi1,ps,… ,pa-%;, 但 其 它 概率 p41,…,p; 变化 ,我 们 有 
末 ( 放 国有 (加 
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H(pi,'**,p, 9) + qlgk (20) 
H(pi,*, pr-ps pr-k+t1 ,pn) 之 
H(pi,, pas,g,0,." ,0) = 
H(p1,**, pn-k.g) (21) 
其 中 g=1 一 (pit+…+ py) 
考虑 任何 无 需 为 二 叉 的 树 ,其 中 已 对 诸 叶 指定 概率 ,比如 说 


(22) 





这 里 ps 表示 一 个 查找 过 程 将 在 叶 |&| 处 结束 的 概率 。 于 是 在 每 个 内 ( 非 叶 ) 节 点 
处 的 分 文 对 应 于 在 每 个 分 支 之 下 基于 叶 概 率 之 和 的 一 个 局 部 概率 。 例 如 ,在 节点 
A ,以 分 别 的 概率 

(pi1+ p2+ p3+ pasps,pe t+ pr + ps + po) 
取 第 一 个 、 第 二 个 和 第 三 个 分 支 , 而 且 在 节点 B, 概 率 是 
(pi,p2,p3+ pa)/(p1+ p+ p3+ pa) 
我 们 说 ,每 个 内 节点 有 它 的 局 部 概率 分 布 的 炉 ; 于 是 
1 

Pit pt+patpa 
1 


H(A)= (pi1+ p2+ p3+ p4) lg 


1 


pslg— + (pet+p7t+ pst+ po)! 


ps 8 po +p7t pst po 
pi Pit+ p+ p3+ pa p2 pi1i+ p21+ ps3+ pa 
H(B)= lglg D3, 
(8) pit+prtpatpas pi pitpatpatpas p2 


p3+ pa lg 2 2 Ps Ppa 
pit p>+ p31+ pa p3+ pa 
ba |b 
p> 72 
p3 p3+ pa Pp4 p31+ pa 
H(D)= — lg SR++ lg 
(DR nn rh 
ps6 poet pr+ pet+ po p7 pe t+ p7+ pst po 
H(E)=—— lg gf Pr fe pe 
(E) potprtpatps pe pet+p7tpstpo™ p7 
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Pet p7+t pst+ po ps pet+ p7t+ pst+ po po 








引 理 EE 对 于 一 个 村 的 所 有 内 芳 点 a 所 取 的 pl(a) 日 (a) 之 和 ,其 中 pl(a) 赴 达到 
芳 点 a 的 杰 率 ,而 日 (a) 是 a 的 炉 , 等 于 在 这 些 叶 上 的 柳 率 分 布 的 篇。 
证 明 通过 由 底 向 上 的 归纳 法 ,容易 确立 这 个 恒等式 。 例 如 ,关于 上 面 的 公式 ， 
我 们 有 
H(A)+ (pi+ p+ p3+ pa)H(B)+ pH(C) + (p3+ pa)H(D)+ 
(pet+ p7+ ps + po)H(E) = 
pilg + plg i ++ polg— 
pi1 p2 po 
所 有 涉及 lg(pi+ psp+ pa3+ pa4),lg(p3+ ps) 和 1lg(pet+ pr+ pgst+ po) 的 项 都 消失 。 
| 
作为 引 理 下 的 一 个 结果 ,我 们 可 以 使 用 箭 来 确立 对 于 任何 二 叉 树 的 费用 的 一 个 
方便 的 下 限 。 


定理 B 设 (站 ,pi90 9 ) 十 如 同 在 算法 KK 中 那样 非 员 的 权 , 并 量规 格 
化 使 得 pi1+… + p+ go+…+ gq, 二 1, 江 设 P= pl1+… + p, 二 一 次 成 功 查 找 的 榴 
H= H(pi,', pa, 40 , qn) 
是 对 应 的 胡 率 分 布 的 炉 , 旦 设 C 是 极 小 费用 (14)。 于 是 ,如 果 蝇 >2Pje, 我 们 有 


C>H- Pilg (23) 


证 明 取 费 用 C 的 一 个 二 又 树 ,并 对 它 的 诸 叶 指定 概率 ws。 在 每 个 内 节点 之 
下 ,还 加 上 一 个 中 间 分 支 ,导致 有 概率 ps 的 一 个 新 叶 。 然 后 ,对 得 到 的 三 义 树 的 内 
节点 a 求 和 C= 2 p(a), 以 及 由 引 理 EEE, 得 到 日 = pl(a)H(a)。 

如 果 a 是 内 节点 外, 灶 旦 (a ) 对 应 于 一 个 三 路 分 布 ,其 中 概率 之 一 是 pj/p(a)。 
习题 35 证 明 , 对 于 所 有 x >0, 每 当 p+gq+r=1 时， 


H(p,g,7) < plgr + 1+ lg(1+] (24) 
因此 ,对 于 所 有 正 的 z ,我 们 有 不 等 式 


H = jp(a)H(la) 过 2 方 lgz 十 1 十 lg|1 十 去 |)C 
现在 选择 2z = HI/P 就 导致 所 求 的 结果 ,因为 对 于 所 有 y>0,lg(1+y) 达 ylge 
1 H\ 
C27 rH - Pleap)- 
1 


TIEGTTETRJ + Plee)— 
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HH Plg 5 | 
当 燃 极其 低 时 ,等 式 (23) 不 必 成 立 。 但 对 于 玖 这 2P/je 的 情况 的 限制 不 是 严格 
的 ,因为 互 的 值 通常 接近 于 lg n ;参见 习题 37。 注 意 这 个 证 明 并 不 真正 使 用 节点 自 
左 至 右 的 阶 ;对 于 在 任何 阶 之 下 有 内 节点 概率 p; 和 外 节点 概率 gw 的 任何 二 又 查找 
树 下 限 (23) 成 立 。 
即使 当 我 们 确实 坚持 自 左 至 右 的 阶 时 , 焙 的 计算 也 产生 距离 (23) 不 太 远 的 一 个 
上 限 。 
定理 M 在 怎 理 虽 的 假定 之 下 ,我 们 也 有 
C<H+2-P (25) 


、 pe 1 1 
证 明 形成 2 十 在 个 和 30 一 本 94035190 932 二 00 十 力 十 91 十 力 ? 十 


Fg ss = qo+ pi1+ 二 9 -1 十 pn 十 qu; 我 们 可 以 假定 50<SI< 所 5 见习 


题 38)。 把 每 个 s; 表达 为 一 个 二 进 小 数 , 如 果 ww =1 则 写 5, = (.111…),。 于 是 令 
串 ce 是 $4 的 前 导 二 进位 ,对 于 j 关 ,保留 足够 的 二 进位 以 区 分 ss 和 s;。 例 如 ,我 们 
可 以 有 ?=3, 而 且 

so = 一 (.0000001)， oo = 00000 
1 = (.0000101), o] = 00001 

s> = (.0001011), o> = 0001 

s3 = (.1100000), 03 二 1 
以 如 下 方式 构造 有 n +1 个 叶 的 一 个 二 叉 树 , 即 对 于 0 二 过 nn,o 对 应 于 从 根 到 因 
的 通路 ,其 中 0 表示 一 个 左 分 支 ,而 1 表示 一 个 右 分 支 。 还 有 ,如 果 oc， 对 于 某 个 
Qs ,Be 和 和 ri, 有 ar0Bi 的 形式 ,而 m 有 axl7i 的 形式 , 令 内 节点 因 对 应 于 通路 a,。 于 
是 在 上 面 的 例子 中 ,我 们 将 有 


se 





可 能 还 有 仍然 没有 名 字 的 内 节点 ;以 它们 的 一 个 且 仅 一 个 孩子 代替 它们 的 每 一 
个 。 得 到 的 树 的 费用 至 多 是 2 Pr(l mw I+1) + Dglol。 
我 们 有 
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pe < 3 ge 十 pe 十 Fa = st- sl1S2 4 (26) 
因为 5 过 (.ay);+271% 和 546-1 之 (. a4),。 其 次 ,如 果 g4 宇 2 '; 我 们 有 ss 宇 ss_1+ 
2 11, so41 之 54+2““ ,因此 |o4 | 三 +1。 由 此 得 出 g;<2 %'?, 而 且 我 们 已 经 
构造 了 费用 为 


< 2 pill 十 | ak 1)+ Dg | ok | 二 Dpll+lgs)+ 
k=1 k=0 k=1 pe k=0 


P+2(1-P)+H=H+2-P 


1 
2+lg—|= 
A| gy 


的 一 株 二 又 树 。 | 


在 图 15 的 KWIC 索引 应 用 中 ,我们 有 P = 1304/3288 守 0.39659, 而 且 H(zp， 
pas，90，""' ,35) 守 $5$.00635。 因 此 定理 B 告诉 我 们 C 宇 3.3800, 而 定理 M 告诉 我 
们 C<6.6098。 


Garsia-Wachs 算法 在 站 =…= 刀 =0 的 特殊 情况 下 算法 天 的 一 个 令 人 喜悦 
的 改进 是 可 能 的 。 其 中 仅仅 时 概 率 (ao,ql,…，,q*) 是 有 关 的 这 种 情况 特别 重要 , 因 
为 它 在 好 多 重要 应 用 中 出 现 。 因 此 在 本 小 节 的 剩 下 部 分 我 们 假定 ,概率 p; 全 为 零 。 
注意 在 这 种 情况 下 定理 B 和 M 归结 为 不 等 式 
H(go,q1,'*,q9n) SC(gqo,g1," ,qn) < H(go,g1,*,q4)+2 (27) 
而 且 费 用 函数 (14) 简 化 为 


C = yw 1 = 固 的 级 (28) 

以 下 发 现 是 使 一 个 更 简单 的 算法 成 为 可 能 的 关键 性 质 。 

引 理 W 如 果 gq, -1 之 q+1; 则 在 每 个 最 优 林 中 li l,i ,如 采 dk-1™ Qk+1 , 则 在 
隶 个 最 优 榭 中 Ll, 二 41。 

证 明 假设 qs -1 宇 qs+1 并 且 考 虑 其 中 ;>>L41 的 一 株 树 ,于 是 [| 必定 是 一 个 右 
儿子 ,而 且 它 的 左 兄弟 工 是 权 c 宇 qs -1 的 一 个 子 树 。 用 工 代替 | 则 的 双亲 ;以 其 儿子 
为 | 有 和 |k+1 的 一 个 节点 代替 [+ 1。 这 使 整个 费用 改变 一 c 一 gi(ls 一 U41 一 1)+ 
q+1Sqp+1 ~ Qk-1o 所 以 如 果 gs -1 之 gs41;, 则 给 定 的 树 不 是 最 优 的 ,而 且 如 果 Qhk—1 
= gp+1; 则 一 个 最 优 树 已 被 转换 为 男 一 株 最 优 树 。 在 后 一 种 情况 下 ,我们 已 经 发 现 
一 棵 最 优 树 ,其 中 li = Lrio | 

对 于 这 个 结构 更 深 的 分 析 告 诉 我 们 更 多 的 结果 。 

引 理 X 假设 ; 和 k 是 使 得 )< 的 下 标 。 而 且 我 们 有 

i) 对 于 li<k,gi-1> gitil, 

这) 9 _1<Qkerl1i 

ii) 对 于 jj 入 ;2<A-1,9<oa ii+oaii 而 且 
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iv) 9 -1 之 9k -1+ akoe 

于 是 有 一 株 最 优 树 ,其 中 1 _1= 17, 而 且 两 者 中 

a) /三 太一 1 ,或 者 

b) 4 = 44 且 |j| 是 一 个 左 儿子 。 

证 明 :通过 在 引 理 W 中 把 左 和 右 转 过 来 ,我 们 看 到 (ii) 意 味 着 一 株 最 优 树 的 存 
在 性 ,其 中 4-_1 宇 4。3 引 理 W 和 (也 意味 着 三 委 风 委 … 和 过 六 。 因 此 1 ;= 六。 

对 于 茶 个 满足 j 委 s< 的 ; ,假设 1, < 1 一 1 二 1,,1。 设 t 是 使 得 1 = 1 的 <k 
最 小 下 标 。 于 是 01 = …= 4_1= 4 一 1, 而 且 |s+1| 是 一 个 左 儿 子 。 因 此 1 一， 是 奇 
数 ,而 且 对 于 ;=s+1,s+3,…，, 二 节点 [让 是 一 个 左 儿 子 。 以 | 上 + 代替 [ 直 的 双亲 ;对 
于 s<i<z, 以 |i+ 了 代替 回 ;而 且 以 其 子女 为 [| 和 [s+ 了 的 一 个 内 节点 代 蔡 外 节点 
|s|。 这 使 费用 改变 过 g, 一 g, 一 qi 志 q; 一 gy_1 一 qi; 所 以 如 果 g,< gs_1+ gi, 则 它 是 
一 个 改进 。 因 此 ,由 (iii),7; 宇 届 -1。 

我 们 仍然 未 使 用 假设 (iv)。 如 果 4; = 4 ,而 且 轩 不 是 一 个 左 儿子 , 则 团 必 定 是 
j 一 的 右 兄弟 。 以 上 一 耻 代 兰 它 们 的 父 节 点 ,然后 对 于 j<i<%, 以 有 一代 兰 叶 同 ; 
而 且 以 其 子女 为 lg 一 1 和 | 旭 的 一 个 内 节点 代 蔡 外 节点 [|。 这 使 费用 改变 一 gw + 
q_i + es 委 0, 所 以 我 们 得 到 满足 (5) 的 一 株 最 优 树 。 | 

引 理 Y 设 j 和 % 如 局 在 引 理 X 中 那样 ,并 考虑 通过 删 去 ri， ,和 9g, 而 且 在 
9i-1 之 后 插 人 gi -+ gi 得 到 的 修改 的 概率 (9g0， ,gg11) = (go,*…， 9i -1，94-1 十 
9 9i ,qi-2，9& +1 9x)。 于 是 

Clqo,,qn1) SR (gi1+ qs) + C(gqo,, gq») (29) 

证 明 只 须 证 明 , 对 于 (go,…, gq,) 的 任何 最 优 树 可 被 转换 成 相同 费用 的 一 株 

树 , 其 中 |k 一 1 和 [|| 是 兄弟 ,而 且 诸 叶 以 排列 的 次 序 

oD-1 la-1 ell [e-2 [a+ [a (30) 
出 现 。 我 们 以 在 引 理 X 中 构造 的 树 开始 。 如 果 它 有 类 型 (b) ,我 们 可 简单 地 对 叶 更 
名 ,把 | 一] 和 | 旭 | 向 左 滑动 -1 一 j 个 位 置 ,如 果 它 是 类 型 (a) ,假设 1,_1=1,-1 和 
1, = 44 ;我 们 进行 如 下 :首先 把 [4 一 1 和 | 有 | 左 滑动 -1 -个 位 置 ;然后 以 [二 代替 
它们 的 (新 的 ) 双 亲 ; 最 后 ,以 其 子女 为 Ik 一直 和 | 的 一 个 节点 代替 | 思 ,而 且 对 于 j < ; 
<s, 以 [i 一 1 代替 节点 由 。1 

引 理 Z 在 3/ 理 YY 的 假设 之 下 , (29) 中 的 等 式 成 立 。 

证 明 对 于 (go,…,g%-1) 的 每 株 树 对 应 于 有 叶 (30) 的 一 株 树 ,其 中 两 个 越 出 
次 序 的 叶 节 点 一 让 和 | 旭 是 兄弟 。 令 内 节点 x 是 它们 的 双亲 。 我 们 要 来 证 明 ,该 类 
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型 的 任何 最 优 树 可 被 转换 成 相同 费用 的 一 株 树 ,其 中 叶 以 正常 的 次 序 |ol…|z] 出 现 。 

如 果 j= 有 一 1, 则 无 需 证 明 任 何 东 西 。 否 则 对 于 j 志 i < 一 1, 我 们 有 gq’_1> 
air 因为 gj; -1 之 qi _-1+ qi>>gq;。 因 此 由 引 理 WW, 我们 有 Lj 声 包 二 … 声 4-,, 其 中 17， 
是 xz 的 级 ,而 且 对 于 j 志 i<k -1,17; 是 | 让 的 级 。 如 果 1, = 4,_, ,我们 简单 地 把 节点 xz 
向 右 滑动 ,以 |j…| 一 2 z 来 代替 序列 xz | 放 … 人 惟一 2]; 这 就 如 所 求 那 样 把 叶 弄 好 。 

否则 ,假设 1, = 7;, 且 4,41> 14, 我 们 首先 以 用 …|s|xz 代替 zz |j…|s|; 这 使 得 /过 
ll 和 … 志 -2, 其 中 1= 1;+1 是 节点 jk 一 1 和 | 有 | 公 共 的 级 。 最 后 以 循环 移动 的 序 
列 |s+1…lk 一 2 一 1 代替 节点 lg 一 llg|ls+1]…| 一 2。 

习题 40 证 明 ,这 减少 费用 ,除非 4_, = 1。 但 是 由 于 引 理 Y, 费 用 不 能 减少 。 因 此 
A -2= 7 ,证 明 完 成 。 


这 些 引 理 表 明 , 对 于 n+1 个 权 qo,g1,…,g; 的 问题 可 以 归结 为 n 个 权 的 问题 : 
我 们 首先 找 使 得 gi _ 1 三 gq;1 的 最 小 下 标 ; 然 后 我 们 找 使 得 9;_1 宇 gq,-1+ gs 的 最 
大 ;<&; 然 后 我 们 从 这 个 表 中 删 去 gy -1 和 9 ,并 且 把 和 q_i + gs 就 插 在 gq;_1 之 后 。 
在 7=0 或 &=72 的 特殊 情况 下 ,这 些 证 明 表 明 , 我 们 应 当 就 像 在 左 和 右 有 无 穷 的 权 
q -1 和 gq, +1 存在 那样 进行 。 这 些 证 明 还 表明 ,从 新 的 权 (g。,… ,gq- |) 得 到 的 任何 最 
优 树 可 以 重新 安排 成 一 株 树 芽 , 它 在 正确 的 自 左 至 右 的 次 序 下 有 原来 的 权 (go， 
…, gn) ;而且 每 个 权 在 个 和 了 两 者 中 将 出 现在 相同 的 级 上 。 

例如 ,图 18 示 出 当 诸 权 ax 是 在 英文 正文 中 字符 一 ,A,B,…,2Z 的 相对 频率 的 
构造 。 开 头 的 一 些 权 是 

186 ,64,13 ,22 ,32 ,103 ,… 

而 且 我 们 有 186>13,64>22,13< 32; 因 此 ,我 们 以 35 代替 "13 ,22”, 在 新 的 序 
列 

186 ,64,35,32 ,103 ,… 
中 ,我 们 以 67 代替 "35 ,32 ”并且 把 67 滑动 到 64 的 左边 ,得 到 
186 ,67 ,64 ,103 ,… 

然后 “67,64” 变 成 131 ,而且 我 们 开始 来 考察 跟随 103 的 那些 权 。 在 27 个 原来 
的 权 被 组 合成 单个 权 1000 之 后 ,逐次 的 组 合 的 历史 确定 一 个 这 样 的 二 叉 树 ,这 株 树 
的 磁 融 权 路 径 长 度 是 原来 问题 的 解 。 

但 是 图 18 中 的 树 的 叶 不 全 处 于 正确 的 次 序 之 下 ,因为 当 我 们 把 we -+ qi 向 左 
滑动 时 ,它们 变 得 混乱 (参见 习题 41)。 还 有 , 引 理 Z 的 证 明 保 证 ,存在 一 株 树 , 它 的 
叶 处 于 正确 的 次 序 之 下 ,而且 恰好 和 混乱 的 权 有 相同 的 级 。 这 个 非 混 乱 的 树 , 即 图 
19 ,因此 是 最 优 的 。 由 Garsia-Wachs 算法 , 它 是 二 又 树 的 输出 。 


算法 G(Garsia-Wachs 的 最 优 二 又 树 算法 ) 给 定 一 序列 的 非 负 权 wo，,w; ,…， 
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wano 本 算法 构造 出 有 个 内 节点 的 二 叉 树 ,对 于 这 个 二 又 树 ，37_0rwpli 为 极 小 。 
其 中 是 从 根 到 外 节点 |&| 的 距离 。 它 使 用 2n +2 个 节点 的 一 个 数组 ,对 于 0 过 k 声 
2n+1 其 地 址 是 X ;每 个 节点 有 称 做 WT,LLINK,RLINK 和 LEVEL 的 四 个 字段 。 被 构 
造 的 树 的 叶 将 是 节点 Xo0…X; 内 节点 将 是 X, ;1…%, ; 根 将 是 Xp, ; 且 Xs, ;1 被 用 作 一 
个 临时 的 标志 。 本 算法 也 维持 一 个 指针 Po ,Pl ,… ,Pt 的 工作 数组 ,其 中 1 志 n +1。 
G1.[ 开 始 阶 段 1] 对 于 0 二 nn, 置 WT(Xi) 二 wi 以 及 LLINK(%)<RLINK(X,) 
<-A。 还 置 Bl<X +41,WT(Po)< 一 00 ,Pj 一 20,t< 一 1,m<-n。 然 后 对 于 j=1， 
2,…,n 实施 步骤 G2 ,并 转 到 G3。 
G2.[ 吸 收 w;] (这 时 我 们 有 基本 条 件 
WT(P;_1) > WT(Pii1) 对 于 1i<ti (31) 
换言之 ,在 工作 数组 中 的 权 是 2- 递减 的 ”)。 实 施 以 下 的 子 程序 C 零 次 或 
多 次 ,直到 WT(P, -1) > w;。 然 后 置 :< 一 :+1 和 P,<-X;。 
G3.[ 完 成 阶段 1] 实施 子 程序 C 零 次 或 多 次 ,直到 t=1。 
G4.[ 执 行 阶 段 2] (现在 Pl = X,, 是 二 叉 树 的 根 , 而 且 WT(Pj) = zw 二 … 二 让)。 
对 于 0 委 & 委 2”, 置 i 为 从 节点 Pl 到 节点 xX 的 距离 。( 参 见习 题 43, 图 18 
未 出 一 个 例子 ,其 中 级 号 出 现在 每 个 节点 的 右边 )。 
G5. [执行 阶段 3] 通过 改变 X41,…,%; 的 链接 ,构造 有 相同 级 号 ii, 但 有 在 对 
称 次 序 X06,…,X, 下 的 叶 节 点 的 一 个 新 二 叉 树 。( 人 参见 习题 44; 一 个 例子 出 
现 于 图 19 中 。) | 
子 程序 C( 组 合 ) 本 子 程序 是 Garsia-Wachs 算法 的 核心 。 它 组 合 两 个 权 ,适当 时 
把 它们 左 移 ,并 且 维 持 2- 递减 的 条 件 (31)。 
Cl. | 初始化] 置 & 一 1。 
C2.|[ 建 立 一 个 新 节点 ] (这 时 我 们 有 & 之 2)。 置 mw<m +1,LLINK(X,)<P_1， 
RLINK(X, )<—P; ,WT(X, )<—WT(P, _1) + WT(P, )。 
C3.[ 向 左 移动 跟随 的 节点 ] 置 :< 一 t - 1, 然后 对 于 kj 二 1, 置 Pj;1<Pj。 
C4.[ 问 右 移 前 边 的 节点 ] 置 ]<k 一 2; 然 后 当 WT(Pj)<<WT(X,) 时 置 Pj ;1<P; 和 
j<j—16 
C5. [插入 新 方 点 ] 置 Pj ;1 一 Xn。 
C6. | 完成 没有 ?] 如 果 j;>0 和 和 WT(Pj-1) 二 WT(Xs), 则 置 一 ; 并 且 回 到 C2。 


如 同 前 面 所 述 , 子 程序 C 可 能 需要 Q(n ) 步 来 建立 和 插入 一 个 新 节点 ,因为 它 使 
用 顺序 的 内 存 而 不 是 链接 表 。 因 此 算法 G 总 共 的 运行 时 间 可 能 是 0Q9(m*)。 但 是 更 
精心 设计 的 数据 结构 可 用 来 保证 阶段 1 将 至 多 要 求 O(nlog nn) 步 (见习 题 45)。 而 
阶段 2 和 阶段 3 仅 需 O(n ) 步 。 

Kleitman 和 Saks[SIAM J. Algeb. Discr. Methods 2(1981)142 一 146] 证 明 ,最 优 
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应 用 于 字母 频率 数据 的 Garsia - Wachs 算法 :阶段 3 


图 19 
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加 权 路 径 长 度 决 不 超过 当 诸 g 被 安排 成 “锯齿 次 序 ” 下 出 现 的 最 优 加 权 路 径 长 度 的 
值 ,这 锯齿 次 序 是 
qo SS 92 SS gq4 SS qn < gn121 1 路 人 qq (32) 

(这 是 在 习题 6.1 - 18 中 讨论 的 管风琴 的 次 序 的 逆 )。 在 后 一 种 情况 下 ,Garsia 一 
Wachs 算法 实质 上 归结 为 在 权 go + gq1,92+ 93;,"… 上 的 Huffman 算法 ,因为 在 工作 
数组 中 的 权 实 际 上 将 是 非 递 增 的 (而 不 仅仅 像 在 (31) 中 那样 是 “2 一 递减 的 ")。 因 此 
我 们 能 够 改进 定理 M 的 上 限 而 无 须知 道 诸 权 的 次 序 。 

图 19 中 的 最 优 二 又 树 对 编码 理论 以 及 查找 有 一 个 重要 的 应 用 。 使 用 0 代表 树 
中 的 一 个 左 分 支 ,而 用 1 代表 右 分 支 ,我 们 得 到 下 列 可 变 长 度 的 码 字 


-一 00 I 1000 R 11001 

A 0100 J 1001000 Ss 1101 

B ©010100 K 1001001 T 1110 

C 010101 L 100101 U 111100 

D 01011 M 10011 Vv 111101 (33) 
E 0110 N 1010 W 111110 

F 011100 0 1011 x 11111100 

G 011101 P 110000 Y 11111101 

H 01111 Q 110001 Z 1111111 


于 是 , 像 *RIGHT ON” 这 样 一 个 消息 将 被 编码 为 串 
1100110000111010111111100010111010 
尽管 码 字 的 长 度 是 可 变 的 ,但 从 左 至 右 的 编码 是 容易 的 ,因为 树 结 构 告 知 我 们 何 时 
一 个 码 字 结束 和 另 一 个 码 字 开始 。 这 个 编码 方法 保持 了 消息 的 字母 次 序 ,而 且 它 平 
均 对 每 个 字母 使 用 4.2 个 二 进位 。 因 此 这 个 码 可 用 来 压缩 数据 文件 ,而 不 破坏 字母 
信息 的 词典 次 序 。( 对 于 所 有 二 又 树 编 码 来 说 ,每 个 字母 4.2 个 二 进位 这 个 数字 是 
极 小 的 ,尽管 如 果 我 们 不 理 皮 字母 次 序 的 限制 , 它 可 减少 到 每 个 字母 4.1 个 二 进位 。 
如 果 以 字母 对 来 编码 而 不 是 以 单个 字母 编码 ,可 以 实现 进一步 的 减少 ,同时 保持 字 
母 次 序 )。 


历史 和 文献 ”这 一 小 节 的 树 查找 法 是 在 20 世纪 50 年 代 由 奢 干 人 独立 地 发 现 
的 。 在 1952 年 8 月 的 未 公开 的 备忘录 中 ，A.I.Dumey 以 下 列 方式 描述 了 树 插 入 的 
原始 形式 : 

考虑 其 中 可 存储 2” 个 项 目的 一 个 磁 鼓 ,每 一 个 项 目 有 一 个 二 进 地 址 。 亲 循 下 
列 程序 : 

1. 读 入 头 一 个 项 目 并 把 它 存 于 地 址 2? 中 , 即 存储 位 置 的 一 半 处 。 

2. 读 和 下 一 项 目 ,把 它 同 头 一 个 进行 比较 。 

3. 如 果 它 大 , 则 把 它 放置 在 2? -1 +2? “的 位 置 处 ,如 果 它 小 , 则 把 它 放 置 在 
22-“ 处 .…。 

树 插 入 的 另 一 种 早期 形式 是 由 D.J.Wheeler 提出 的 , 他 实际 上 允许 类 似 于 我 们 
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将 在 6.2.4 小节 讨 论 的 多 路 分 支 。 一 个 二 叉 树 插入 技术 也 由 C.M.Bernes-Lee 独立 
地 发 明 出 来 [ 见 Comp.J. 2(1959),5j]。 

P.E.Windley [ Comp. J. 3 (1960), 84 ~ 88 |]、 A.D.Booth 和 A.]J.T.Colin 
[Information and Control 3 (1960),327 ~ 334] 和 Thomas N.Hibbard [JACM 9 
(1962) ,13 一 28] 首 先 发 表 了 树 插 和 的 描述 。 这 些 作者 每 一 位 似乎 都 已 经 彼此 独立 
地 发 展 了 这 个 方法 ,而 且 每 篇 文章 都 以 不 同 的 方法 导出 了 比较 的 平均 次 数 (6)。 各 
个 作者 还 讨论 了 这 个 算法 的 不 同方 面 :Windley 给 出 了 对 树 插 入 排序 的 一 个 详细 的 
讨论 ;Booth 和 Lolin 讨论 了 使 前 22 ”个 元 素 形成 一 株 完全 平衡 的 树 这 种 预先 处 理 
的 效果 (见习 题 4) ;Hibbard 提出 了 删 去 的 思想 并 说 明了 树 插入 分 析 和 快速 排序 分 
析 之 间 的 联系 。 

最 优 二 分 查找 树 的 思想 ,最 先是 针对 pi = 二 … = p; =0 的 特殊 情况 ,在 人 研究 类 似 
(33) 的 字母 二 进 编码 时 提出 来 的 。E.N.Gilbert 和 EE.F.Moore 的 一 篇 非常 有 趣 的 
文章 [Bell System Tech.J. 38(1959) ,933 一 968] 中 讨论 了 这 个 问题 ,以 及 它 与 其 它 编 
码 问 题 的 关系 。Gilbert 和 Moore 证 明了 在 特殊 情况 P=0 下 的 定理 M, 并 且 发 现 利 
用 类 似 于 算法 K 的 一 个 方法 ,但 不 必 利 用 单调 关系 (17) ,就 可 以 在 O(n°) 步 内 构造 
出 一 株 最 优 树 。K.E.Iverson[LA programming Language (Wiley,1962) ,142 一 144] 独 
立地 考虑 了 其 它 情况 , 即 当 所 有 9 都 为 0 时 的 情况 。 他 建议 如 果 把 根 选 择 成 使 左 子 
树 和 右 子 树 的 概率 尽 可 能 地 相等 , 则 将 得 到 一 株 最 优 树 ;可 惜 ,我 们 已 经 发 现 这 个 思 
想 行 不 通 。D.E.Knuth[Acta Informatica 1(1971),14 一 25,270|] 随后 考虑 了 一 般 的 
p 和 9 个 权 的 情况 ,并 证 明了 这 个 算法 可 减少 到 O(n“) 步 ;他 还 阐述 了 编译 程序 应 
用 中 的 一 个 例子 ,其 中 , 树 中 的 键 码 是 在 一 种 类 似 ALGOL 语言 中 的 “保留 字 ”。 对 
于 请 =0 的 情况 , 胡 德 强 研究 他 自己 的 算法 已 经 好 些 年 了 ;由 于 这 个 问题 的 复杂 性 ， 
关于 这 个 算法 正确 性 的 一 个 严格 证 明 不 大 好 找 , 但 是 终于 在 A.C.Tucker 的 参与 下 
他 得 到 了 一 个 证 明 [SIAM J.Applied Math. 21 (1971),S$14 一 532]。 许 多 年 以 后 
A.M.Garsia 和 M.L.Wachs 才 发 现 了 导致 算法 G 的 简化 [SICOMP 6 (1997) ,622 一 
642], 尽管 他 们 的 证 明 仍 然 是 比较 复杂 的 。 上 面 的 引 理 W、X、Y 和 Z 是 由 
J.H.Kingston 给 出 的 [J. Algorithms 9 (1988),129 一 136], 也 请 参见 胡 德 强 、 
Kleitman 和 Tamaki 的 论文 ,SIAM J. Applied Math 37 (1979) ,246 一 236 ,其 中 有 明 - 
Tucker 算法 的 一 个 初等 证 明和 对 于 其 它 费 用 函数 的 某 些 推广 。 

定理 B 是 由 Paul J. Bayer 给 出 的 , MIT/ILCS/TM-69 报告 ( 腑 省 理工 学 院 ， 
1975)。 他 还 证 明了 定理 M 的 一 个 稍微 弱 的 形式 ,上 面 更 强 的 形式 是 由 
K.Mehlhorn 给 出 的 [SICOMP 6(1977) ,235 一 239]。 


习 起 
1.[15] 算法 T 仅 仅 叙述 了 非 空 树 的 情形 。 为 了 使 它 对 于 空 树 也 能 正确 地 工作 ,应 作 些 什么 
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2.[20] 修改 算法 全 使 它 对 右 穿线 树 有 效 ( 参 见 2.3.1 小 节 ; 在 这 样 的 树 中 对 称 遍 历 更 容易 
一 些 )。 
3.[20] 在 6.1 节 中 ,我 们 发 现 ,对 顺序 查找 算法 6.1S 稍 作 修改 ,就 能 使 它 更 快 些 (算法 
6.1Q)。 类 似 的 技巧 可 以 用 来 加 速算 法 工 吗 ? 
4.[ M24] (A.D.Booth 和 A.J.T.Colin) 给 出 随机 顺序 下 的 N 个 键 码 ,假设 我 们 使 用 前 2”- 
1 个 键 码 构造 一 株 完 全 的 平衡 树 ,同时 ,对 于 0 过 上 <n, 置 2* 个 键 码 于 上 级 上 ;然后 使 用 算法 工 来 
插入 剩 下 的 键 码 。 试 问 在 一 次 成 功 的 查找 中 ,平均 比较 次 数 是 多 少 ? [提示 :修改 等 式 (2)。j 
P5.[M25] 有 11! =39916800 种 不 同 的 次 序 把 名 字 CAPRICORN 、AQUARIUS 等 插入 到 一 株 二 分 
查找 树 中 。(a) 这 些 排列 中 有 多 少将 产生 图 10? (b) 这 些 排列 中 有 多 少将 产生 一 株 锐 化 的 树 ,其 
中 每 个 节点 上 的 LLINK 或 RLINK 为 A? 
6.[M26] 设 Ps 是 11,2,…,n| 的 这 样 一 些 排列 cvaz…a 的 数目 ,它们 使 得 如 果 使 用 算法 工 
逐次 地 把 cl ,a,,…,a; 插 人 到 一 株 空 树 中 , 则 当 揪 入 a, 时 ,恰好 要 做 & 次 比较 。( 在 这 个 问题 
中 ,将 忽略 插入 al,a，…,a 1 时 所 要 做 的 比较 。 在 正文 的 记号 下 ,我 们 有 C,-1= (kPa)/n!， 
因为 这 是 对 一 株 含有 n -1 个 元 素 的 树 的 不 成 功 的 查找 中 所 作 的 平均 比较 次 数 )。 
a) 证 明 Pt 三 2P DT+(2 -1)P,[ 提 示 : 考 虑 在 这 株 树 中 a,+ 1 是 否 落 在 a, 之 下 jj。 
b) 试 求生 成 函数 G,(z)= ,Paz* 的 一 个 简单 公式 ,并 且 借 助 于 Stirling 数 使 用 你 的 公式 来 
表 人 大 0 
c) 这 个 分 布 的 方差 是 多 少 ? 
7.[ M25] S.R.Arora 和 W.T.Dent 在 以 随机 顺序 把 > 个 元 素 插 入 到 一 株 开始 时 为 空 的 树 之 
后 ,为 找 出 第 m 个 最 大 的 元 素 ,所 需要 做 的 平均 比较 次 数 是 多 少 ? 假定 该 元 素 的 键 码 已 给 定 。 
8.[M38 ] 用 算法 工 由 ?个 随机 排序 的 键 码 构造 一 株 树 ,以 p(n,k) 表 示 这 株 树 的 内 部 路 径 
长 度 是 的 概率 (内 部 路 径 长 度 是 在 构造 树 的 过 程 中 ,由 树 插入 排序 所 作 的 比较 次 数 )。 
a) 试 求 定义 相应 的 生成 函数 的 递 推 关 系 。 
b) 计 算 这 个 分 布 的 方差 [1.2.7 小 节 中 的 若干 习题 在 这 里 可 能 有 用 1 
9.[41] 我 们 已 经 证 明 , 当 以 随机 顺序 插入 键 码 时 , 树 的 查找 和 插入 仅 需 要 大 约 2 In 六 次 比 
较 ; 但 实际 上 ,顺序 不 能 是 随机 的 。 试 作 一 经 验 研 究 ,看 看 树 插 人 实际 上 对 于 一 个 编译 程序 和 /或 
汇编 程序 内 的 符号 表 的 适用 程度 如 何 。 在 典型 的 大 型 程序 中 的 标识 符 ,是 否 会 产生 一 株 相 当 好 
的 平衡 二 分 查找 树 ? 
> 10.[22] (R.W.Floyd) 也 许 我 们 对 算法 工 的 排序 性 质 不 感 兴趣 ,但 我 们 预料 ,输入 将 以 非 随 
机 次 序 到 来 。 通 过 使 输入 “看 上 去 是 ”以 随机 次 序 进来 的 , 试 设计 一 个 方法 使 树 的 查找 有 效 。 
11.120] 当 从 大 小 为 N 的 一 株 树 中 删 去 一 个 节点 时 ,在 步骤 D3 中 实施 5S 一 LLINK(R) 的 最 大 
可 能 次 数 是 多 少 ? 
12.[M22] 当 从 N 个 项 目的 一 株 随 机 树 作 一 随机 删 去 时 ,平均 说 来 ,步骤 D1 转 到 D4 的 次 
数 是 多 少 ( 见 定理 HH 的 证 明 )? 
13.[ M23] 如 果 通 过 算法 D 删 去 一 株 随机 树 的 根 , 则 得 到 的 树 仍然 是 随机 的 吗 ”? 


》 14.122] 证 明 磁带 有 附加 步骤 D1 太 的 算法 D 产生 的 树 的 路 径 长 度 , 决 不 多 于 没有 这 个 附加 


步骤 时 产生 的 树 的 路 径 长 度 。 试 找 出 步骤 D1 六 真正 地 减少 路 径 长 度 的 一 种 情况 。 


15.[23] 设 ajayasas 是 {1,2,3,41 的 一 个 排列 ,并 设 j=1,2 或 3。 取 有 键 码 ai 的 一 个 元 素 
的 树 ,并 使 用 算法 工 插入 a,,a;; 使 用 算法 DD 删 去 aj ;然后 使 用 算法 TT 插入 a4。 在 4! x3 种 可 能 
性 中 有 多 少 分 别 产 生 (13) 中 形状 为 .IT 于 V、V 型 的 树 ? 

A224 


6.2 通过 键 码 比较 进行 查找 
>16.[25] 删 去 操作 是 可 交换 的 吗 ? 即 如 果 使 用 算法 D 删 去 X 和 Y, 则 得 到 的 树 是 否 和 使 用 
算法 DD 删 去 Y 和 X 所 得 到 的 一 样 ? 
17.[25] 证 明 , 如 果 算 法 D 中 的 左 和 右 的 作用 完全 被 颠倒 , 则 容易 推广 这 个 算法 ,使 得 它 从 
右 穿线 树 删 去 一 个 给 定 的 节点 ,同时 保持 必要 的 穿线 (参见 习题 2)。 
18.[M21] 证 明 由 Zipf 定律 可 推出 (12)。 
19.[M23] 当 输 入 概率 满足 等 式 6.1-(11) 中 定义 的 “80-20” 定 律 时 , 式 (11) 近 似 的 平均 比较 
次 数 是 多 少 ? 
20.[ M201 假设 我 们 以 频率 递减 的 次 序 pl 宇 p; 宇 … 宇 pw, 把 键 码 插 入 到 一 株 树 当 中 ,这 株 
树 会 比 最 优 查找 树 坏 得 多 吗 ”? 
21.[ M20] 如 果 p、g、r 是 随机 选择 的 概率 ,并 受到 条 件 p+ g+r=1 的 约束 , 则 (13) 中 的 树 
TH 于 、.N 和 和 V 分 别 为 最 优 的 概率 是 多 少 (考虑 图 14 中 诸 区 域 的 相对 面积 )? 
22.[ M20] 证 明 , 当 实施 算法 K 的 步 又 K4 时 ,r[i,j 一 1] 决 不 大 于 rr[i+1,jj]。 
P23.[M23] 对 于 N=40 的 情况 ,以 及 权 pl1=9,p2= p3=…= pao 二 1,90 王 91= 
求 一 株 最 优 的 二 分 查找 树 ( 不 要 使 用 计算 机 )。 
24.[M25] 给 定 p, = g, =0, 并 设 其 它 权 均 非 负 ,证 明 (p1，,…,p,;90,… ,9 ) 的 一 株 最 优 树 ， 
可 以 通过 在 (pi,… ,ps-1;40o，"… ,49a-1) 的 任何 最 优 树 中 以 


i 
得 到 。 


25.[M20] 设 A 和 B 是 实数 的 非 空 集合 ,并 且 如 果 下 列 性 质 成 立 ， 

(a€A,bEB, 且 6b<4a) 蕴 涵 (a€B, 上 日 5b€ A)。 

则 定义 A 委 8 

a) 证 明 这 个 关系 对 于 非 空 集合 是 传递 的 。 

b) 证 明 或 否定 :A 二 B 当 昌 仅 当 AAUB<B。 

26.[ M22] 设 (p 1,…,p,;9o，;"…,9x) 是 非 负 的 权 , 其 中 p, + 9, = xz。 证 明 当 x 从 0 变化 到 
,而 (pi,…,p,_1;90,…;9a_1) 保 持 不 变 时 ,一 株 最 优 二 分 查找 树 的 费用 c(0,n) 是 具有 整数 斜 
率 的 “四 的 、 连 续 的 、 分 段 线 性 的 ”x 的 函数 。 换 言 之 ,证 明 存在 正 整数 o> >>… > 1 和 实 常 数 0 
= zo<ri< "<r <zn+t1= ,以 友 yo 之 y1<… 达 yn ,使 得 对 于 0 过 hm, 当 x; 夺 z 寺 xp4 1 时 ， 
c(0,n)= y+ Lixo 

27.[ M33] 本 题 的 目的 是 ,证 明 每 当权 (pi1,… ,pa;90o,…,9;) 非 负 时 ,最 优 二 分 查找 树 的 根 
R(i,j) 的 集合 借助 于 习题 25 中 定义 的 关系 ,满足 

R(i,j 一 1) 过 R(i,j) 过 R(i+1,j) 对 于 7 一 :之 2? 
这 个 证 明 是 通过 对 ; - i 使 用 归纳 法 进行 的 ;我 们 的 任务 是 证 明 ,假定 n 之 2 且 对 于 -i<n, 上 面 
的 关系 成 立 , 则 R(0,n 一 1) 志 R(0,n)。[ 由 左右 的 对 称 性 ,得 出 R(0,n) 三 R(1,n)j。 

a) 证 明 如 果 p, = g, =0, 则 R(0,n 一 1) 达 R(0,n)( 见 习题 24)。 

b) 设 p, + gq, = 工 , 在 习题 26 的 记号 下 , 设 R 是 当 zs<x< z+1 时 最 优 根 的 集合 R(0,n), 并 
设 R% 是 当 z= zs 时 最 优 根 的 集合 ,证 明 

RoZRoS<RIZ<RIES…< RR, < R, 
因此 ,由 (a) 部 分 和 习题 25, 对 于 所 有 的 zx ,我 们 有 R(0,n 一 1) 夺 R(0,n)。 


“二 440 = 0,， 
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[提示 :考虑 x = zi 的 情况 并 假定 两 原 树 


1(0,r—1!) 1(r,7) 1(0, s—1) 1(s, 71) 
在 级 | 在 级 


都 是 最 优 的 ,上 且 ;<r 和 /之 1!'。 利 用 归纳 法 假设 来 证 明 , 有 一 株 根 为 中 的 最 优 树 使 得 [n| 在 级 
上 ,以 及 一 株 根 为 @ 的 最 优 树 ,使 得 [n| 在 /级 上 ]。 

28.[24] 使 用 某 种 宏 汇编 语言 来 定义 一 个 “最 优 二 分 查找 ” 宏 ,其 参数 是 一 个 最 优 二 又 树 的 
嵌 套 说 明 。 

29.[40] 使 用 图 12 的 频率 数据 ,对 于 31 个 最 常用 的 英文 字 来 说 ,什么 是 最 坏 的 二 分 查找 树 ? 

30.[M341 证 明 , 当 j 宇 i+2 时 ,最 优 二 分 查找 树 的 费用 满足 “四 角 不 等 式 ” 

c(i,j) — c(i,j —1) 守 c(i+1,7j)- c(i+1,;—1) 

31.[ M35]( 陈 国 财 ) 证明, 在 满足 pj + …+p,+ gqo+… 十 g, 二 1 的 所 有 可 能 的 概率 集合 
(pi1，… ,pa;40，,"… ,qn) 当 中 , 当 对 于 所 有 的 i,p;=0, 对 于 所 有 的 偶数 ;,q;=0 以 及 对 于 所 有 奇数 
j ,9; 二 1/[n/21] 时 ,出 现 最 昂贵 的 极 小 费用 树 。 


p32.[ M25] 设 n+1=2”+ 衣 ,其 中 0 过 hk 过 2”。 恰 有 [(。 ) 个 二 叉 树 ,其 中 所 有 外 节点 出 现在 


级 m 和 m+1 上 。 试 证 明 , 在 所 有 这 些 树 当 中 ,如 果 我 们 应 用 算法 K 到 对 于 充分 大 的 M 的 权 
(pi ,pn ;M+ qo,…,，M+9g,) 上 时 ,我 们 得 到 对 于 权 (pl,…,p:;90，"…， cq,) 来 说 具有 极 小 费用 
的 一 株 树 。 

33.[M41 ] 为 了 找 出 使 程序 全 的 运行 时 间 极 小 化 的 二 分 查找 树 ,我 们 把 量 7C+ C1l 极 小 化 ， 
而 不 是 简单 地 把 比较 次 数 C 极 小 化 。 试 给 出 一 个 算法 , 当 这 株 树 中 的 左右 分 支 代价 不 同时 , 它 
找 出 最 优 的 二 分 查找 树 。[ 顺 便 指 出 , 当 右 代价 是 左 代价 的 两 倍 且 节 点 频率 都 相等 时 , 斐 波 那 契 树 
是 最 优 的 ,参考 L.E.Stanfel,JACM 17(1970) ,308 一 517。 在 不 能 一 次 作 三 路 比较 的 机 器 上 ,算法 
工 的 一 个 程序 将 要 在 步骤 T2 中 作 两 次 比较 ,一 次 是 关于 等 于 的 比较 ,一 次 是 关于 小 于 的 比较 ; 
B.Sheil 和 V.R.Pratt 已 经 发 现 ,这 些 比 较 不 一 定 涉 及 同一 个 键 码 ,所 以 ,看 来 最 好 有 一 株 这 样 的 
二 叉 树 ,其 内 节点 确定 一 个 相等 测试 或 一 个 小 于 测试 ,但 不 是 两 者 兼备 。 这 种 情况 作为 上 面 所 述 
的 问题 的 男 一 种 可 能 性 ,对 它 进行 探讨 是 很 有 意思 的 。] 

34.[HM21] 证 明 当 六 一 co 时 ,多 项 式 系 数 

N 
PiN, Pp2N,* ,paN 

的 近似 值 同 粹 玉 (p1,ps;，…,p;) 有 关 。 

35.[HM22 ] 通过 确立 不 等 式 (24) 来 完成 定理 B 的 证 明 。 

P36.[HM25 ](Claude Shannon) 设 X 和 Y 是 具有 有 限 范 围 1zi,…，,z， + 和 |y，……，, 光 | 的 随机 
变量 。 且 设 p;=P,(X= zx;),9;= P,(Y=y),r; = P,(X= 7 和 Y= y,)。o 设 H(X) = H(p1,*…, 
pm) 和 日 (Y) = 日 (gi,… ,9;) 是 单个 地 变量 分 别 的 炉 ,而 互 (X,Y)= 互 (ru ,rw) 是 它们 联合 
分 布 的 焙 。 证 明 

H(X) < H(XY) < H(X)+ H(Y) 
[提示 :如果 /是 任何 止 函 数 ,我 们 就 有 EF(z) 委 ACEz)j。 
37.[ EM26](P.J.Bayer,1975) 假设 (Pi,…,P; ) 是 一 个 随机 概率 分 布 , 即 对 于 1 委 & 委 2 和 
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Pi+…+ 了 Pp, 二 1 由 pi 实 0 定义 的 在 nn 一 1 维 单纯 形 中 的 一 个 随机 点 。( 等 价 地 说 , (Pi,…P;) 是 在 
习题 3.3.2-26 意义 下 的 随机 间隔 的 集合 。) 什 么 是 炳 互 (P; ,… , P, ) 预 期 的 值 ? 
38.[ M20] 尽管 我 们 仅 在 sy<st<Ks<…<s，, 的 情况 下 证 明了 定理 M, 但 说 明 为 什么 一 般 情 
况 下 它 都 成 立 ? 
> 39.[ M25] 设 ww;，,… ,w, 是 满足 w+…+z=1 的 非 负 的 权 。 试 证 明 ,在 2.3.4.5 小 节 中 
所 构造 的 Huffman 树 的 加 权 路 径 长 度 小 于 昌 (w!,…,w,)+1。 提 示 : 参 见 定理 M 的 证 明 。 
40.[M26】] 完成 引 理 Z 的 证 明 。 
41.[21] 图 18 示 出 了 一 个 混乱 的 二 又 树 的 构造 。 试 在 自 左 至 右 次 序 下 列 出 它 的 叶 。 
42.[23] 说 明 为 什么 子 程序 C 维持 2- 递减 条 件 (31)。 
43.[20] 说 明 如 何 有 效 地 实现 Garsia-Wachs 的 算法 阶段 2。 
P44.[125] 说 明 如 何 有 效 地 实现 Garsia-Wachs 的 算法 阶段 3。 
> 45.[30] 说 明 如 何 实现 子 程序 C 使 得 Garsia-Wachs 的 算法 总 共 的 运行 时 间 至 多 是 O(n log 7)。 
46.[ M30 ]( 黄 泽 权 和 张 系 国 ) 考虑 一 个 方案 ,这 个 方案 也 是 通过 算法 工 构造 出 二 分 查找 树 
的 ,惟一 区 别 是 , 当 节 点 数 达 到 形 如 2" 一 1 的 一 个 数 时 ,这 株 树 被 重新 组 织 为 一 株 完 全 平衡 的 均 勾 
树 , 且 对 于 0 二 &<n, 有 2* 个 节点 在 级 & 上。 证明, 在 构造 这 样 的 树 时 所 作 的 比较 次 数 平均 为 
N lg N + O(N)( 不 难 证 明 ,重新 组 织 所 需要 的 时 间 量 为 O(N))。 
47.[ M40] 把 定理 B 和 M 从 二 叉 树 推广 到 1 叉 树 。 如 果 可 能 ,也 像 在 习题 33 中 那样 ,允许 
分 支 费 用 是 非 均 匀 的 。 
48.[ M47] 在 随机 插入 和 删 去 的 条 件 下 对 于 二 分 查找 树 的 稳定 状态 进行 严格 的 分 析 。 
49.[HM42 ] 试 分 析 一 个 随机 二 分 查找 树 的 平均 高 度 。 


6.2.3 平衡 的 树 


我 们 刚刚 学 习 了 树 插入 算法 , 当 输 入 数据 是 随机 的 时 ,这 个 算法 将 产生 好 的 查 
找 树 ,但 是 仍然 有 出 现 一 株 令 人 讨厌 的 晓 化 树 的 可 能 性 。 也 许 我 们 可 以 想 出 一 个 算 
法 , 它 使 树 总 是 最 优 的 ;但 不 幸 的 是 ,似乎 这 非常 困难 。 另 一 个 思想 是 , 记 住 总 的 路 
径 长 度 ,而 且 当 它 的 路 径 长 度 , 比 如 说 ,超过 SN lg N 时 就 完全 重新 组 织 此 树 。 但 在 
构造 这 株 树 的 过 程 中 ,这 个 方法 可 能 要 求 大 约 V NA/2 次 重新 组 织 。 

1962 年 两 名 俄国 数学 家 G. M. Adelson 一 Velsky 和 E.M.Landis, 对 维持 一 株 好 
查找 树 的 问题 ,发 现 了 一 个 非常 漂亮 的 解 LDoklady Akademiia Nauk SSSR 146 
(1962) ,263 一 266 ;英文 翻 译 在 Soviet Math. 3,12$9 一 1263 上 ]。 他 们 的 方法 仅仅 要 
求 每 个 节点 增加 额外 两 个 二 进位 ,并 且 决 不 使 用 多 于 O(logN) 个 操作 来 查找 树 或 插 
入 一 个 项 目 。 事实 上 ,我们 将 看 到 ,他 们 的 方法 也 导致 了 一 项 好 的 表示 任意 长 度 NN 
的 线性 表 的 一 般 技术 ,使 得 下 列 每 个 操作 仅 以 O(logN) 时 间 单 位 就 可 完成 : 

i) 找 出 具有 一 给 定 键 码 的 一 个 项 目 。 

ii) 给 定 不 , 找 出 第 & 个 项 目 。 

iii) 把 一 个 项 目 插入 到 一 个 确定 的 位 置 。 

iv) 删 去 一 个 确定 的 项 。 

如 果 我 们 对 线性 表 使 用 顺序 分 配 , 则 操作 (iD 和 (ii) 是 高 效 的 ,但 操作 (ii) 和 (iv) 
却 花 费 阶 为 N 的 步骤 ; 另 一 方面 ,如果 我 们 使 用 链接 分 配 , 则 操作 (iiil) 和 (iv) 是 高 效 
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的 ,但 是 操作 (i) 和 (ii) 花 费 阶 为 N 的 步 又。 线性 表 的 一 种 树 表 示 可 以 以 O(log N) 
步骤 来 做 所 有 四 个 操作 。 并 且 它 也 可 能 相当 高 效 地 来 做 其 它 标准 操作 ,例如 ,我 们 
可 以 在 O(log (M+ N)) 步 内 把 一 个 M 个 元 素 的 表 同 一 个 N 个 元 素 的 表 链 接 起 
来 。 

实现 所 有 这 些 的 方法 ,涉及 到 我 们 称 之 为 平衡 树 的 概念 。( 许 多 作者 也 把 它们 
称 作 AVL 树 ,其 中 的 AV 代表 Adelson -= Velsky 而 世代 表 Landis。) 上 一 段 是 给 平衡 
树 做 广告 , 它 把 平衡 树 宣 扬 成 好 似 包 治 百 病 的 万 灵 药 ,而 使 所 有 其 它 数据 表示 形式 
都 相形 见 细 ; 当 然 ,我 们 对 于 平衡 树 也 应 当 有 一 种 平衡 的 态度 ! 在 不 涉及 所 有 上 面 
四 个 操作 的 应 用 中 ,我 们 可 能 达到 少 得 多 的 开销 和 更 简单 的 程序 设计 。 而 且 , 除 非 
N 相当 大 ,否则 平衡 树 并 没有 优点 ;因此 ,如 果 有 花费 64 lg N 时 间 单 位 的 一 个 高 效 
方法 ,和 花费 2N 时 间 单 位 的 一 个 低 效 方法 , 则 我 们 将 使 用 低 效 方法 ,除非 N 是 大 
于 256 的 。 为 一 方面 ,N 也 不 应 该 太 大 ;平衡 树 主要 适合 于 数据 的 内 部 存储 ,而 对 于 
6.2.4 小 节 中 的 外 部 直接 存 取 文件 ,我 们 将 研究 更 好 的 方法 。 由 于 内 存储 器 随 着 时 
间 的 推移 似乎 变 得 越 来 越 大 ,因此 平衡 树 也 就 越 来 越 重要 。 

一 株 树 的 高 度 定 义 为 它 最 大 的 级 , 即 从 根 到 一 个 外 节点 的 最 长 路 径 的 长 度 。 一 
株 二 叉 树 称 为 平衡 的 ,如 果 每 个 节点 左 子 树 的 高 度 同 它 的 右 子 树 的 高 度 之 差 不 超过 
+1。 图 20 示 出 了 具有 17 个 内 市 点 和 高 度 为 5 的 一 株 平 衡 树 ;每 个 节点 的 平衡 因 
子 用 + ,* 或 一 表示 ,根据 右 子 树 的 高 度 减 左 子 树 的 高 度 是 +1、0 或 -1 而 定 。 图 8 
(6.2.1 小 市 ) 中 的 斐 波 那 契 树 是 另 一 株 高 度 为 5 的 平衡 二 又 树 , 它 仅 有 12 个 内 节 
点 ;在 该 树 中 的 平衡 因子 大 多 是 一 1。 图 10(6.2.2 小 节 ) 中 的 黄道 天 宫 树 不 是 平衡 
的 ,因为 在 AQUARIUS 和 GEMINI 两 个 节点 处 都 不 符合 关于 子 树 的 高 度 限制 。 


ELt) 


of 上 | | (710e) Lorie) [BjoG) 00C) 
8 1 1 sl bs] ls] [7 


图 20 一 株 平 衡 的 二 叉 树 


平衡 性 这 一 定义 表示 了 最 优 二 叉 树 (要 求 所 有 外 节点 都 在 两 个 相 邻 的 极 上 ) 和 
任意 二 义 树 (没有 限制 ) 之 间 的 折衷 。 因 此 自然 要 问 , 一 株 平 衡 树 比 最 优 树 差 多 少 。 
答案 是 , 它 的 查找 路 径 长 度 决 不 会 比 最 优 树 长 45% 以 上 。 

定理 A(Adelson 一 Velsky 和 Landis) 具有 有 入 个 内 节点 的 一 蔡 平 衔 大 的 高 度 总 
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是 处 于 lg (N+1) 和 1.4405lg (N+2) 一 0.3277 之 癌 。 

证 明 ”高 度 为 h 的 一 株 二 叉 树 显然 不 能 有 多 于 2* 个 外 节点 ;所 以 N +1 二 2”， 
即 在 任何 二 叉 树 中 h 宇 [lg(N+1)1|。 

为 了 求 h 的 极 大 值 ,我 们 把 这 个 问题 换 一 个 提 法 , 问 在 高 度 为 h 的 一 株 平 衡 树 
中 可 能 的 极 小 节点 数 是 多 少 。 设 T; 是 具有 最 小 节点 的 这 样 一 株 树 ; 则 这 个 根 的 子 
树 之 一 ,比如 说 左 子 树 ,高 度 为 hh 一 1, 而 男 一 株 子 树 高 度 为 hh 一 1 或 h 一 2。 由 于 我 
们 要 求 T 的 节点 数 为 极 小 ,所 以 可 以 假定 这 个 根 的 左 子 树 是 T_1, 而 右 子 树 是 
T, _，。 这 上段 论证 表明 , 阶 为 h+1 的 克 波 那 契 树 , 在 高 度 为 h 的 所 有 可 能 的 平衡 树 
当中 ,节点 数 最 小 ( 见 6.2.1 小 节 中 斐 波 那 契 树 的 定义 )。 于 是 

NF -1> #5-2 

如 同 在 定理 4.5.3F 的 推论 中 那样 ,所 述 结 果 得 证 。 | 


这 个 定理 的 证 明 表 明 ,在 一 株 平衡 树 的 查找 中 , 仅 当 这 株 树 至 少 包 含 Fzs -1 工 = 
317 ,810 个 节点 时 , 才 需 要 25 次 以 上 的 比较 。 

现在 考虑 当 利 用 树 插入 (算法 6.2.2T) 把 一 个 新 节点 插入 到 一 株 平 衡 树 中 时 ， 
将 发 生 什么 情况 。 在 图 20 中 ,如 果 这 个 新 节点 居于 |4|、.5| 16|、.7|、10| 或 13| 处 , 则 
这 株 树 将 是 平衡 的 。 但 如 果 新 节点 落 在 别处 , 则 需要 作 某 些 调整 。 问 题 发 生 在 当 我 
们 有 平衡 因子 为 +1 的 一 个 节点 时 ,这 个 节点 的 右 子 树 在 插入 之 后 就 更 高 了 。 或 
者 ,对偶 地 ,如 果 平 衡 因 子 是 一 1, 则 左 子 树 就 更 高 了 。 不 难看 到 ,实际 上 只 有 如 下 两 
种 情况 会 引起 有 态 烦 : 




















(如 果 我 们 反 演 这 些 图 式 ,左右 交换 , 则 会 出 现 另 外 两 种 实际 上 相同 的 情况 。) 在 
这 些 图 式 中 ,大 的 矩形 a、86、y、6 分 别 表示 有 图 中 所 示 高 度 的 子 树 。 当 一 个 新 元 素 
刚 把 节点 B 的 右 子 树 的 高 度 从 hh 增加 到 及 +1 时 出 现 情况 1, 当 新 元 素 增 加 B 的 左 
子 树 高 度 时 出 现 情况 2。 在 第 二 种 情况 下 ,我 们 或 者 有 hh =0( 所 以 XX 本身 是 新 六 
点 ) ,或 者 节点 X 有 高 度 分 别 为 (hh 一 1,h) 或 (hh ,hh 一 1) 的 两 株 子 树 。 

在 上 述 两 种 情况 下 ,简单 的 变换 将 恢复 平衡 ,同时 保持 树 节 点 的 对 称 次 序 , 见 (2)。 

在 情况 1 中 ,我 们 简单 地 向 左 “ 转 动 ” 树 ,把 8 加 到 A 而 不 是 加 到 B, 这 个 变换 好 
像 是 对 一 个 代数 公式 应 用 结合 律 似 的 ,以 (a8)Y 来 代替 xc(pr)。 在 情况 2 中 ,我 们 
使 用 双重 转动 ,首先 向 右 转动 (X,B)， 然 后 向 左 转动 (A,X)。 在 两 种 情况 下 ,都 只 
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需要 改变 树 的 少量 链接 。 而 且 ,新 树 的 高 度 是 /+2, 这 恰 是 在 插入 之 前 的 高 度 ; 因 
此 原先 在 节点 A 上 面 的 树 的 剩余 部 分 (如 果 有 的 话 ) ,总 是 保持 平衡 的 。 

”例如 ,如 果 我 们 把 一 个 新 节点 插入 到 图 20 的 位 置 [可 处 , 则 在 一 个 转动 之 后 ( 情 
况 1) 得 到 图 21 所 示 的 平衡 树 。 注 意 ,若干 平衡 因子 已 经 改变 。 


Kle) 
F{e) NU+) 
D(—) HT 十 ) M(—) P 十 ) 
sD cf i 0 和 of 还 
‘Yo 国 咎 国 辣 ! 人 各 的 向 网 疗 的 xO 
0| | 8| 19 


图 21 图 20 的 树 , 在 插入 了 新 的 键 码 R 之 后 已 重新 平衡 过 


这 个 插入 步骤 的 细节 可 以 以 若干 方式 给 出 。 千 一 看 去 ,为 了 记 住 哪 一 些 节点 将 
党 影响 ,似乎 需要 一 个 辅助 的 栈 ,但 下 面 的 算法 利用 了 这 样 一 个 事实 即 在 插入 之 前 
(1) 中 节点 B 的 平衡 因子 为 0, 从 而 赢得 了 速度 。 


算法 A( 平 衡 树 的 查找 和 插入 ) 给 定 一 个 记录 表 , 它 形成 如 上 所 述 的 一 株 平衡 
的 二 叉 树 ,本 算法 查找 一 个 给 定 的 变 元 K。 如 果 KK 不 在 表 中 , 则 把 一 个 包含 KK 的 
新 节点 插入 到 树 的 适当 位 置 , 必 要 时 重新 平衡 这 株 树 。 

如 同 在 算法 6.2.2T 中 那样 ,假定 树 的 节点 含有 YLLINK 和 RLINK 诸 字段 ,我 
们 还 有 一 个 新 的 字段 。 

B(P) =NODE(P) 的 平衡 因子 
即 右 子 树 的 高 度 减 去 左 子 树 的 高 度 ; 这 个 字段 的 内 容 总 是 +1、0 或 者 -1。 一 个 特 
殊 的 表 头 节点 也 出 现在 树 的 顶 上 ,在 单元 HEAD 中 ;RLINK(HEAD) 的 值 是 指向 树 根 的 
指针 ,而 LLINK(HEAD) 用 来 记 住 树 的 整个 高 度 。( 这 个 算法 实际 上 不 需要 知道 高 度 ， 
但 在 下 面 讨 论 的 连接 步骤 中 它 是 有 用 的 )。 我 们 假定 这 株 树 是 非 空 的 , 即 RLINK 
. 430 ， 


6.2 通过 键 码 比较 进行 查找 


(HEAD) 关 A。 
为 了 叙述 方便 ,本 算法 使 用 记号 LINK(a ,P) 作 为 a = 一 1 时 LLINK(P), 以 及 a= 
+ 1 时 RLINK(P) 的 同 义 语 。 


Al. 


A2. 


A3. 


A4. 


AS. 


A6. 


A7. 


A8. 


A9. 


[初始 化 ] 置 T<-HEAD,S<-P<-RLINK(HEAD)。( 指 针 变 量 P 将 沿 树 下 移 ,S 将 

指 丰 可 能 需要 重新 平衡 的 位 置 ,日 了 总 是 指 癌 S 的 父亲 )。 

[比较 ] 如 果 KK 之 KEY(P), 则 转 到 A3; 如 果 KK >>KEY(P), 则 转 到 A4; 如 果 天 

= KEY(P) , 则 查找 成 功 地 结束 。 

[ 左 移 ] 置 Q<-LLINK(P)。 如 果 Q= 人 A, 则 置 0 和 MAVRIL 和 LLINK(P)<Q 并 转 

到 步骤 A5。 否 则 ,如 果 B(Q) 关 0, 则 置 T<P 和 S<-Q。 最 后 , 置 P<Q 并 返回 

到 步骤 A2。 

[ 右 移 ] 置 Q<-RLINK(P)。 如 果 Q= 和 , 则 置 6 寺 AVAIL 和 RLINK(P)<-Q 并 转 

到 步骤 A5。 否 则 ,如 果 B(Q) 关 0, 则 置 T<-P 和 S<-Q。 最 后 , 置 P<-Q 并 返回 

到 步骤 A2。( 本 步骤 的 最 后 部 分 可 以 同步 又 A3 的 最 后 部 分 组 合 在 一 起 )。 

[插入 (我 们 刚刚 把 一 个 新 节点 NODE(Q) 链 接 到 这 株 树 中 ,而 且 它 的 字段 

筑 要 初始 化 。) 置 KEY(Q)<K,LUINK(Q)<-RLINK(Q)<-A,B(Q)<0。 

[调整 平衡 因子 ] (现在 在 S 和 Q@ 之 间 的 诸 节点 上 的 平衡 因子 需要 从 0 变 成 

为 +1。) 如 果 天 <KEY(S), 则 置 a 一 一 1, 否 则 置 <c<<-+1。 然 后 置 R<P<- 

LINK(a ,S) ,并 重复 地 做 下 列 操作 0 次 或 多 次 ,直到 P=Q 为止 :如 果 天 < 

KEY(P) , 则 置 B(P) 一 一 1 和 P<-LLINK(P); 如 果 KK >>KEY(P), 则 置 B(P)< + 

1 和 P<-RLINK(P)。( 如 果 K =KEY(P), 则 置 P=Q 并 日 进 到 下 一 步 。) 

[平衡 动作 j 现在 出 现 若 干 情 况 : 

i) 如 果 B(S) = 0 (这 株 树 已 经 长 得 更 高 ), 则 置 B(S)<a ,LINK(HEAD) 一 

LLINK(HEAD) + 工 ,并 结束 此 算法 。 
ii) 如 果 B(S) = - a( 这 株 树 更 平衡 了 ) , 则 置 BCS)<0 并 结束 此 算法 。 
iii) 如 果 B(S) = a( 这 株 树 失去 了 平衡 ), 则 如 果 B(R) = a 转 到 步骤 A8 ,如 果 
B(R) = -4 , 转 到 步骤 A9。 

(情况 (ii) 对 应 于 当 a=+1 时 (1) 中 叙述 的 情况 ;S 和 R 分 别 指向 节点 A 

和 B, 日 LINK( 一 a,S) 指 向 xc ,等 等 。) 

[ 单 转动 ] 置 P<-R,LINK(a,S)<—LINK( 一 a,R),LINK(—~a,R)<S,B(S)<B 

(R)<-0。 转 到 A10。 

[ 双 转 动 ] 置 p<LINK( 一 a,R),LINK( 一 a,R)<—LINK(a ,P) ,LINK(a ,P)<—R, 

LINK(a,S)<—LINK( 一 a ,P),LINK( 一 a ,P) 一 Ss。 现在 置 
(一 a,0) ”如 果 B(P) 

(B(S),B(R)) {0 如 果 B(P) 

(0,a) 如 果 B(P) 


2) 


(3) 


4 


然后 置 B(P)<0。 


A10. [最 后 一 步 ] (我 们 已 经 完成 了 重新 平衡 的 变换 ,把 (1) 变 成 (2), 并 且 P 指 


回 新 的 根 且 了 指向 旧 的 子 树 根 $ 的 父亲 。) 如 果 S= RLINK(T) 则 置 RLINK 
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图 22 平衡 树 的 查找 与 插入 
(人 一 P, 否 则 置 LLINK(T)<-P。 | 


这 个 算法 是 相当 长 的 ,但 它 分 为 三 个 简单 的 部 分 :步骤 Al 一 A4 进行 查找 ,步骤 
AS 一 A7 插入 一 个 新 节点 ,而 必要 时 步骤 A8 一 Al0 重新 平衡 这 株 树 。 实 际 上 ,如 果 
这 株 树 是 穿线 的 (参见 习题 6.2.2-2) , 则 可 使 用 同样 的 方法 ,因为 平衡 动作 决 不 需要 
对 穿线 链接 作 困 难 的 变动 。 

我 们 知道 ,这 个 算法 花费 大 约 C log NN 个 时 间 单 位 (C 是 某 个 常数 ) ,但 重要 的 
是 要 知道 C 的 近似 值 ,使 得 我 们 能 了 解 N 应 当 多 大 , 才 值 得 使 用 平衡 树 。 下 列 的 
MIX 实现 能 增进 我 们 对 这 个 问题 的 理解 。 


程序 A( 平 衡 树 的 查找 和 插入 ) 这 个 实现 算法 A 的 程序 使 用 形 如 


BB LLINK |RLINK 
. (4) 


KEY 


的 树 节 点 ,rA 寺 KK ,rlIl1 圭 P,r12 寺 9,rI3 寺 R,rl4 三 $,r15 寺 7T。 重 复 步骤 A7 一 A9 的 代 
码 ,使 得 a 的 值 隐 式 地 (不 是 显 式 地 ) 出 现在 程序 中 。 

01 B EQU 0:1 

02 LLINK EQU 2:3 
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03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 


RLINK 
START 


4H 


1H 


ZH 


DH 


1H 
6H 


4H 


HEAD 
0,5(RLINK ) 
2F 
0,1(RLINK ) 
SF 

0,2(B) 

关 十 3 
0,1 

0,2 

0,2 

1,1 

4B 
SUCCESS 
0,1(LLINK) 
1B 

AVAIL 
OVERFLOW 
0,2(RLINK) 
AVAIL 

1,2 

0,2 

1F 
0,1(RLINK) 
xX 十 2 
0,1(LLINK) 
1,4 

闪 十 3 
0,4(RLINK) 
关 十 2 
0,4(LLINK) 
0,3 

-1 

1F 

7F 
0,1(1:1) 


6.2 通过 键 码 比较 进行 查找 


A1 .万 始 化 

T<HEAD 
Q<-RLINK(HERAD ) 

转 A2 且 S<-P<-0 

A4. 右 移 。Q<RLINK(P) 
如 果 Q=A 则 转 A5 
rX<—B(Q) 

如 果 B(Q) = 0 则 转移 
工 一 > 卫 

S< 0 

E< 0 

A42. 比 梦 

如 果 K >KEY(P) 则 转 到 A4 
如 果 KK = KEY(P) 则 转 出 
A43. 碟 移 。Q<LLINK(P) 
如 果 9 关 A 则 转移 
A5. 括 人 


QAVAIL 

KEY( Q )<—K 
LLINK(Q)<—RLINK(Q0)<—A 
K<KEY(P) 吗 ? 
RLINK(P)<—0 


LLINK(P)<—0 

A6. 砚 整 平衡 因子 
如 果 KK<KEY(S) 则 转移 
R<-RLINK(S ) 


R<—LLINK(S) 
R<—R 
rX<——1 
转 到 比较 循环 
如 果 KK = KEY(P) 则 转 到 A7 
B(P)< 一 +1( 它 原 是 +0) 
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40 
41 
42 
43 
44 
45 
46 
47 
48 
49 


50 
51 
52 
53 
254 
D5 
56 
D7 
58 
29 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 


1H 


7H 


A7L 


A9L 


A8L 


A7R 


A9R 
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0,1(RLINK) 
1,1 

4B 

0,1(B) 
0,1(LLINK) 
1B 

0,4(B) 
0,4(B) 

1,4 

A7R 


DONE 

7F 

0,3 

0,3(B) 

A8L 
0,3(RLINK) 
0,1(LLINK) 
0,3(RLINK) 
0,1(LLINK) 
0,1(B) 
T1,2 
0,4(B) 

T2 ,2 

0 ,3(B) 
0,1(RLINK) 
0,4(LLINK) 
0,1(RLINK) 
8F 

DONE 

6F 

0 ,3 

0,3(B) 

AB8R 
0,3(LLINK) 
0,1(RLINK) 
0,3(LLINK) 


G2+J2 


P<—RLINK(P) 


如 果 KK 之 KEY(P) 则 转移 
B(P)<——1 

P<—LLINK(P) 

转 到 比较 循环 

27. 间作 动作。rI12<-B(S) 
B(S)<—0 


如 果 KK 宇 KEY(S) 则 转 到 
a +1 子 程序 
如 果 rI2= -a 则 转 出 
如 果 B(S) 原 来 是 0, 则 转移 
P<—R 
rI2<—B(R) 
如 果 rI2 = a 则 转 A8 
A9. 双 甘 动 
LINK(a ,P<-LINK( — a ,R)) 
—>LINK( — a,R) 
LINK(a ,P)<—R 
rI2<—B(P) 
-4,0 或 0 

>B(S) 
0,0, 或 a 

>B(R) 
A8. 单 转动 
LINK(a ,S)<—LINK( ~ a ,P) 
LINK( — a ,P)<-S 
同 其 它 分 支 合 并 
如 果 rI2 = -a 则 转 出 
如 果 B(S) 原 来 为 0 则 转移 
P<—R 
rI2<—B(R) 
如 果 rI2 = a 则 转 A8 
A9. 双 鞠 动 
LINK( a ,P<-LINK( - a ,R)) 
一 LINK( — a,R) 


6.2 通过 键 码 比较 进行 查找 


76 ST3 0,1(RLINK) HH?2 LINK(a ,P)<—R 
77 LD2 0,1(B) H2 rl2<—B(P) 

78 LDX T2 ,2 H2 -a,0 或 0 

79 STX 0,4(B) 五 2 —B(S) 

80 LDX T1 ,2 万 2 0,0, 或 a 

81 STX 0,3(B) H2 —B(R) 

82 A8R LDX 0,1(LLINKO G2 A8. 单 图 动 

83 STX 0,4(RLINK) G2 LINK(a,S)<—LINK(— a,P) 
84 ST4 0,1(LLINK) G2 LINK( ~ a ,P)<—S 
85 8H STZ 0,1(B) G B(P)<—0 

86 Al0 CMP4 0,5(RLINK) G A10. 最 后 一 步 

87 JNE x 十 3 G 如 果 RLINK(T) 关 S 则 转移 
88 ST1 0 ,5(RLINK) G3 RLINK(T)<—P 

89 JMP DONE G3 转 出 

90 ST1 0,5(LLINK) G4 LLINK(T)<—P 

91 JMP DONE G4 转 出 

92 COM +1 

93 Tl CON 0 (3) 的 表 

94  T2 CON 0 

95 CON —1 

96 6H ENTX +1 J2 rX<—+1 

97 7H STX 0,4(B) J B(S)<—a 

98 LDX HEAD(LLINK) J LLINK(HEAD) 

99 INCX 1 J +1 

100 STX HEAD(LLINK) J —>LLINK(HEAD) 
101 DONE EQU x 1- S 插入 完成 1 


对 平衡 树 插 入 的 分 析 [对 数学 不 感 兴趣 的 读者 ,请 跳 到 (10)] 为 了 计算 出 算 
法 A 的 运行 时 间 ,我 们 将 要 知道 下 列 问 题 的 答案 : 

:在 这 个 查找 期 间 , 作 了 多 少 次 比较 ? 

.节点 S 和 0Q 将 相距 多 远 ? ( 换 句 话说 ,在 步骤 6 中 需要 作 多 少 调整 ?) 

我 们 要 如 何 经 常 地 做 单 转动 或 双 转 动 ? 
使 用 定理 A 来 推导 最 坏 情况 运行 时 间 的 上 限 并 不 困难 ,但 是 当然 在 实践 中 我 们 需要 
知道 平均 的 特性 。 由 于 这 个 算法 看 起 来 十 分 复杂 ,因此 关于 平均 特性 的 理论 确定 还 
没有 成 功 地 完成 ,但 已 经 得 到 了 若干 有 趣 的 理论 和 经 验 的 结果 。 

首先 我 们 可 以 间 及 有 关 有 个 内 节点 和 高 度 为 h 的 平均 二 又 树 的 个 数 B,,。 对 
于 小 的 hh, 从 关系 式 
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Bo(z) 一 1,， Bi(z) 一 之 ， B41(z) 一 zB,(z)(B,(z) + 2B,_1(z)) (5) 
不 难 计算 生 产 函 数 B,(z)= ,so0Bmwz” (参见 习题 6)。 


于 是 

B,(z)= 2z* + 2 

Bs(z)= 4z4+6z +4ze+ x’ 

Bi(z)= 16z’ + 32z + 44z 二 十 8zl4 十 vl! 
而 且 , 对 于 h 之 3, 一 般 地 说 , B,(z) 有 下 列 形式 


2Fnn-1zPhr2-1 十 2Fom 2L_1zmrz + 复杂 的 项 + Hh-1 2 -2 221 (6) 
其 中 Li 二 41+ 请 -1。( 这 个 公式 推广 了 定理 A。) 有 高 度 h 的 平衡 树 的 总 数 是 B， 
= B,(1)。 它 满足 递 推 式 : 


Bo=B:=1 Bi! = B+2B,B, (7) 

使 得 B,=3, Bs=3':5,B4=3**5*7, Bs 二 3.52.7.23; 而 且 , 一 般 地 
B; = A A AD! AD (8) 
其 中 Ao=1, A1=3, A,=5, As=7,As=23, As=347,…, A, = A,_1B,.,+2。 


序列 B 和 A 非常 快速 地 增长 ;事实 上 ,它们 是 双 倍 指数 的 :习题 7 表明 ,存在 一 个 
实数 9 之 1 .43687 使 得 


B, =L6 | -L060 1+L0 -+ (1)4L07 | (9) 


如 采 我 们 把 Bi 树 的 每 一 个 都 认为 是 同等 可 能 的 , 则 习题 8 证明 在 高 度 为 h 的 一 株 
树 中 节 扩 的 平均 个 数 为 


B;(1)/B,(1) > (0.70118)2*—1 (10) 


这 表示 上 共有 NN 个 节点 的 一 株 平 衡 树 的 高 度 通常 比 起 接近 logy N 来 要 更 接近 于 log ;N 得 
多 。 

不 幸 的 是 ,这 些 结果 实际 上 和 算法 A 没有 多 大 关系 ,因为 该 算法 的 机 制 使 得 某 
些 树 比 起 其 它 树 更 有 可 能 得 多 。 例 如 ,考虑 N =7 的 情况 ,其 中 17 株 平 衡 树 是 可 能 
的 。 有 7! = 5040 个 可 能 的 次 序 , 其 中 可 以 插入 7 个 键 码 ,而 且 有 2160 次 得 到 如 下 
完全 平衡 的 “完备 树 ”。 


(11) 
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相反 , 斐 波 那 契 树 


(12) 


仅 出 现 144 次 ,而 类 似 的 树 


(13) 


出 现 216 次 。 以 任意 四 节点 的 平衡 树 来 代替 (12) 和 (13) 的 左 子 树 ,然后 反射 左 各 
右 ,产生 16 种 不 同 的 树 ; 由 (12) 产 生 的 八 种 每 个 出 现 144 次 ,而 由 (13) 产 生 的 那些 
每 个 出 现 216 次 。 令 人 惊讶 的 是 ,(13) 竟 比 (12) 更 为 普遍 。 

完全 平衡 树 以 这 样 高 的 概率 被 得 到 这 一 事实 ,对 应 于 相同 概率 的 情况 时 的 (10) 
一 起 ,使 得 以 下 断言 似 真 , 即 对 于 一 株 平 衡 树 的 平均 查找 时 间 应 该 是 大 约 lg N+c 
个 比较 ,其 中 c 是 某 个 小 的 常数 。 但 是 R.W.Floyd 已 经 发 现 了 lgN 的 系数 不 大 可 
能 为 精确 的 1, 因 为 这 株 树 的 根 将 接近 于 中 间 。 而 它 的 两 株 子 树 的 根 将 接近 于 四 分 
之 一 的 点 ;于 是 单 转 动 和 双 转 动 不 能 容易 地 使 根 保持 接近 中 间 。 经 验 测 试 指 出 , 除 
非 当 N 很 小 时 ,为 插入 第 N 个 项 所 需要 的 真正 平均 比较 次 数 为 1.01 lg N+0.1。 

为 了 研究 算法 A 的 插 人 和 重新 平衡 阶段 的 特性 ,我 们 可 以 像 在 图 23 中 所 示 那 
样 对 平衡 树 的 外 节点 进行 分 类 。 由 一 个 外 节点 导出 的 通路 可 通过 ”+ ”和 ”- 的 一 
个 序列 来 确定 (+ 表示 一 个 右 链 接 , - 表示 一 个 左 链接 ) ,我 们 写 下 链接 的 描述 直到 
达到 有 一 个 非 空 平衡 因子 的 头 一 个 节点 为 止 。 或 者 如 果 没 有 这 样 的 节点 ,就 直到 达 
到 根 为 止 。 然 后 根据 当 把 一 个 内 节点 插入 给 定位 置 时 ,新 的 树 将 被 平衡 或 不 被 平 
衡 ,我 们 写 A 或 B。 因 此 从 | 3 | 开始 的 通路 是 + + -B, 意 思 是 “ 右 链 接 , 右 链接 , 左 链 
接 ,不 平衡 ”。 以 入 结尾 的 一 个 描述 在 插 人 一 个 新 节点 之 后 不 要 求 重新 平衡 ;以 + + 
B 或 一 一 B 结尾 的 一 个 描述 要 求 单 个 转动 ;以 + -8B 或 -= +B 结尾 的 一 个 描述 要 求 一 
个 双 转 动 。 当 有 k 个 链接 出 现在 描述 中 时 ,步骤 A6 要 调整 kx- 1 个 平衡 因子 。 因 此 
描述 给 出 了 支配 步骤 A6 到 A10 的 运行 时 间 的 实质 性 的 事实 。 
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图 23 在 插入 之 后 描述 算法 A 的 特性 的 分 类 代码 


表 1 插入 第 NN 项 的 近似 概率 








对 于 100 志 NN 二 2000 的 随机 数 的 经 验 测试 给 出 了 对 于 各 种 类 型 的 通路 在 表 1 
中 示 出 的 近似 概率 ;显然 , 当 N 一 co 时 ,这 些 概率 迅速 地 趋同 极限 值 。 表 2 给 出 当 N 
= 10 时 对 应 于 表 1 的 精确 概率 ,并 和 且 把 输入 的 101 个 排列 看 做 是 同等 可 能 的 。( 对 
于 所 有 N 宇 7, 在 表 1 中 作为 “.143” 出 现 的 概率 实际 上 等 于 1/7; 人 参见 习题 11。 当 NN 
<15 时 , 单 转动 和 双 转 动 是 同等 可 能 的 ,但 当 N 之 16 时 双 转 动 稍微 不 太 经 常 出现 )。 

由 表 1 ,我 们 可 以 看 出 二 2 时 的 概率 大 约 是 .143+ .153+ .143+ .143 = .582 ; 
因此 ,步骤 A6 几乎 在 60% 的 时 间 里 是 十 分 简单 的 。 在 该 步 中 平衡 因子 从 0 变 成 
+1 的 平均 次 数 大 约 是 1.8。 在 从 步骤 A7 到 A10 的 过 程 中 平衡 因子 从 土 1 变 成 0 的 
平均 次 数 近 似 于 .3534+2(.233 + .232) 守 1.5; 因 此 ,平均 说 来 ,插入 一 个 新 节点 增 
加 大 约 1.8 一 1.5=0.3 不 平衡 的 节点 。 这 和 下 列 事实 是 相 一 致 的 , 即 在 由 算法 A 所 
构造 的 随机 数 中 ,在 所 有 节点 中 ,有 68% 被 发 现 是 平衡 的 。 
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表 2 插入 第 10 项 的 精确 概率 


1/7 


6/35 


2 
3 4/21 2/35 2/35 
4 


0 1121 1/21 





平均 247/105 53/105 26/105 26/105 


C.C.Foster[Prc. ACM Nat. Conf{. 20 (1965) ,192 一 205] 已 经 提出 算法 A 的 特性 
的 一 个 近似 模型 。 这 个 模型 不 是 严格 地 精确 的 ,但 对 于 给 出 某 些 启示 说 来 , 它 是 足 
够 正确 的 。 假 定 是 由 算法 A 构造 的 一 株 大 的 树 中 一 个 给 定 节点 的 平衡 因子 为 0 


的 概率 。 于 是 ,平衡 因子 为 + 1 的 概率 是 (1 ), 它 为 -1 的 概率 同样 是 六 (1 - 


pP)。 我 们 进一步 假定 (但 没有 论证 ) 所 有 节点 的 平衡 因子 都 是 独立 的 。 于 是 , 步 又 

A6 恰好 置 & -1 个 平衡 因子 为 非 0 的 概率 为 六 (1 一 pp), 所 以 的 平均 值 是 

1/(1 一 pp)。 我 们 需要 转动 树 的 一 部 分 的 概率 是 g 守 1/2。 平均 说 来 ,插入 一 个 新 节 

点 将 增加 平衡 节点 的 个 数 p 个 ;这 个 数 在 步骤 As 中 实际 上 是 1, 在 步骤 A6 中 是 - 

pl/(1 一) ,在 步骤 A7 中 是 g ,在 步骤 A8 和 A9 中 是 29 ,所 以 我 们 有 
p=1-p/(l1-p)+3g 守 5/2- pl(l - 2p) 

对 pp 求解 产生 出 和 表 1 相当 一 致 的 结果 : 


p ~ YA Xx 0.649; 1/(1 — p) SO 2.851 (14) 
程序 A 的 查找 阶段 ( 行 01-19) 的 运行 时 间 是 
10C+ Cl+2D+2-3S (15) 


其 中 C, Ci,S 和 本 章 以 前 的 诸 算 法 一 样 ,而 D 是 在 查找 通路 上 遇 到 的 不 平衡 节点 
的 个 数 。 经 验 测试 表明 ,我 们 可 以 取 D、 总 C， Cl 六 (C+ S),C+Ss1.01lg N 


+0.1, 所 以 平均 的 查找 时 间 近 似 于 11.3 lg N+3 一 13.7S 单位 。( 如 果 查 找 的 执行 
要 比 插 入 经 党 得 多 ,我 们 当然 可 以 对 查找 使 用 一 个 分 开 的 更 快 的 程序 ,因为 那 将 没 
有 必要 来 考察 平衡 因子 ;于 是 对 于 一 次 成 功 的 平均 运行 时 间 将 仅仅 为 大 约 (6.6 
lg N 一 3.4)w ,而且 最 坏 情 况 的 运行 时 间 事 实 上 将 比 由 程序 6.2.2T 得 到 的 平均 运 
行 时 间 还 好 些 )。 

当 查 找 不 成 功 时 ,程序 A 的 插入 阶段 ( 行 20-45) 的 运行 时 间 。 为 8F +26 + (0,1 
或 2) 个 单位 。 表 1 的 数据 表示 ,平均 说 来 ,F 守 1.8。 我 们 是 否 增 加 总 的 高 度 , 或 者 
不 作 重 新 平衡 就 转 出 ,或 做 一 个 单 转动 或 双 转 动 , 决 定 重新 平衡 阶段 ( 行 46-101) 花 
费 16.5,8,27.5 或 45.5( 土 0.5) 个 单位 。 第 一 种 情况 几乎 决 不 出 现 , 而 其 它 情况 以 
近似 概率 .534,.233,.232 出 现 ,所 以 程序 A 的 组 合 插 入 一 重新 平衡 部 分 的 平均 运 
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四 | 亡 加 国 人 图 
图 24 用 于 通过 位 置 查找 的 RANK 字段 


行 时 间 大 约 为 63u。 

这 些 数字 表明 ,在 内 存 中 对 于 一 株 平 衡 树 的 维护 是 相当 快 的 ,尽管 这 个 程序 相 
当 长 。 如 果 输 入 数据 是 随机 的 , 则 6.2.2 小 节 的 简单 树 插入 算法 的 每 个 插入 快 大 约 
50* ;但 是 平衡 树 算法 保证 ,即使 对 于 非 随 机 的 输入 数据 , 它 仍然 是 可 靠 的 。 

程序 A 同 程序 6.2.2T 的 一 个 比较 方法 ,是 考虑 后 者 的 最 坏 情 况 。 如 果 我 们 研 
究 以 递增 的 次 序 插入 N 个 键 码 到 开始 时 为 空 的 一 株 树 中 所 需要 的 时 间 , 则 程序 A 
在 N26 时 比 它 慢 , 而 在 N 之 27 时 比 它 快 。 


线性 表 表 示 ”现在 我 们 转 到 本 小 节 开 始 时 所 作 的 断言 , 即 平衡 树 可 以 以 这 样 一 
种 方式 来 表示 线性 表 , 使 得 我 们 既 可 以 快速 地 插入 诸 项 (克服 顺序 分 配 的 困难 ), 也 
可 以 对 表 项 目 实施 随机 存 取 ( 克 服 链接 分 配 的 困难 )。 

这 种 想法 就 是 在 每 个 节点 中 引进 一 个 新 的 称 为 RANK 的 字段 , 它 指出 该 节点 在 
其 子 树 内 的 相对 位 置 , 即 ,1 加 上 它 左 子 树 中 节点 的 个 数 。 图 24 标 出 了 图 23 的 二 叉 
树 的 RANK 值 。 我 们 可 以 整个 地 消去 KEY 字段 ;或 者 ,如 果 需 要 ,也 可 以 同时 有 KEY 
和 RANK 两 个 字段 ,使 得 有 可 能 通过 它们 的 键 码 值 或 者 它们 在 表 中 的 相对 位 置 来 查 
找 项 目 。 

利用 这 样 一 个 RANK 字段 ,通过 位 置 进行 查找 ,是 对 我 们 在 一 直 研 究 的 查找 算法 
的 一 项 直截了当 的 修改 。 


算法 B (通过 位 置 进行 树 查 找 ) 给 定 表 示 成 一 株 二 叉 树 的 线性 表 ,给 定 &, 本 
算法 寻找 该 表 的 第 & 个 元 素 ( 在 对 称 次 序 下 树 的 第 有 个 节点 )。 假 定 二 叉 树 有 
LLINK 字段 和 RLINK 字段 ,以 及 如 算法 A 中 那样 的 一 个 表 头 ,加 上 如 前 所 述 的 一 个 
RANK 字段 。 

B1. [初始 化 ] 置 M<-k ,P<-RLINK(HEAD)。 

B2. [比较 ] 如 果 P=A, 则 此 算法 以 失败 告终 。( 仅 当 大 于 树 中 的 节点 数 ,或 

&A<0 时 ,这 才 可 能 发 生 )。 否 则 ,如 果 M< RANK(P), 则 转 到 B3; 如 果 M> 
RANK(P), 则 转 到 B4; 如 果 M= RANK(P), 则 本 算法 成 功 地 结束 (P 指向 第 个 
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节 斥 )。 
B3.[ 左 移 ] 置 P<-LLINK(P) 并 返回 B2 。 
B4.[ 右 移 ] 置 M<-M 一 RANK(P) 和 P<-RLINK(P) 并 返回 B2。 | 


在 本 算法 中 惟一 有 趣 之 点 是 在 步骤 B4 中 的 操作 。 我 们 可 以 以 类 似 的 方式 修 
改 揪 人 步骤 ,尽管 其 细节 是 有 些 技巧 的 。 


算法 C( 平 衡 树 按 位 置 插 入 ) ”给 定 表 示 成 一 株 平 衡 二 又 树 的 线性 表 , 并 给 定 上 
和 指向 一 个 新 节点 的 指针 Q ,本 算法 恰 在 此 表 的 第 个 元 素 之 前 插入 该 新 节点 。 如 
条 &=N+l, 则 这 个 新 节点 恰 被 插入 到 此 表 的 最 末 元 素 之 后 。 
假定 二 叉 树 是 非 空 的 并 有 LLINK、RLINK 和 B 字段 及 一 个 表 头 ,如 算法 A 中 那 
样 ,下 加 上 如 前 所 述 的 一 个 RANK 字段 。 本 算法 仅 是 算法 A 的 改写 ;其 差别 只 是 它 使 
用 和 更 新 RANK 字段 而 不 是 KEY 字段 。 
C1.[ 初 始 化 ] 置 T<HEAD ,S<P<-RLINK(HEAD) ,U<-M<-。 
C2.[ 比 较 ] 如 果 MRANK(P), 则 转 到 C3 ,否则 转 到 C4。 
C3. |L 左 移 ] 置 RANK(P)<-RANK(P) +1( 我 们 将 插入 一 个 新 节点 到 PP 的 左边 )。 
置 R<-LLINK(P)。 如 果 R= A, 则 置 LLINK(P)<-0, 并 转 到 CS。 否则 如 果 
B(R) 关 0, 则 置 T<-P,S<R 以 及 U<-M。 最 后 , 置 P<-R 并 返回 到 C2。 
C4. [ 右 移 ] 置 M<-M 一 RANK(P) 和 R<-RLINK(P)。 如 果 R= 人 A, 则 置 RLINK(P)<-0 
并 转 到 C5。 否 则 如 果 B(R) 关 0, 则 置 T<P,S<R 以 及 U<-M。 最 后 , 置 P<_R 
并 返回 C2。 
Cs.[ 插 入 ] 置 RANK(R)<1,LLINK(Q)<_RLINK(Q)<—A,B(Q)<—0。 
C6. [调整 平衡 因子 ] 置 MH<-U。( 这 恢复 了 当 P 是 S$ 时 MM 以 前 的 值 ;所 有 RANK 
字段 现在 都 已 适当 地 赋值 )。 如 果 M<RaANK(S) , 则 置 R<-P<-LLINK(S) ,而 且 
a< 一 1; 和 否则 置 R<P<RLINK(S) ,a<+1, 和 M<M-RRNK(S)。 然 后 重复 做 
下 列 操 作 直 到 P=08 为止: 如果 M<<RANK(P), 则 置 B(P) 一 一 1 以 及 P<_LLINK 
(P) ;如 果 M>>RANK(P), 则 置 B(P) 一 +1 和 M<-M 一 RANK(P) 及 P<_RLINK(P)。 
(如 果 MM= RANK(P), 则 P=Q 而 且 进 到 下 一 步 )。 
C7.[ 平 衡 动作 j] 现在 出 现 若 于 情况 : 
i) 如 果 B(S) =0, 则 置 B(S)<-a ,LEINK(HEAD)<-LLINK(HEAD) + 1, 并 结束 此 
算法 。 
ii) 如 果 B(S)= 一 a, 则 置 B(S)<-0 并 结束 此 算法 。 
iii) 如 果 B(S) = a , 则 如 果 B(R) =a 即 转 到 步骤 C8, 如果 B(R) = -a 即 转 到 
步骤 C9。 
C8. [ 单 转动 ] 置 P<-R,LINK(a ,S)<LINK( - a,R) ,LINK( - a,R)<S,B(S)<B 
(R)<-0。 如 果 a= +1, 则 和 置 RANK(R)<-RANK(R) + RRNK(S) ;如 果 a= -1 , 则 
置 RANK(S)<-RANK(S) - RANK(R) 。 转 向 C10。 
C9.[ 双 转动 ] 进行 步骤 A9( 算 法 A) 的 所 有 操作 。 然 后 ,如 果 ua = +1, 则 置 
RANK(R)<—RANK(R) — RANK(P) ,RANK(P)<—RANK(P) + RANK(S) ;如 果 au = -1 
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则 和 置 RANK(P)<-RRANK(P) + RANK(R) ,然后 RANK(S)<_RANK(S) 一 RANK(P)。 
C10. [最 后 一 步 ] 如 果 S=RLINK(T) 则 署 RLINK(T)<-P, 和 否则 置 LLINK(T)<-P。 
| 

“ 删 去 、 连 接 等 ”对 于 平衡 树 和 维持 平衡 还 可 做 许多 其 它 事情 ,但 这 些 算法 都 是 
十 分 元 长 的 ,它们 的 细节 已 超出 了 本 书 的 范围 。 这 里 我 们 只 讨论 一 般 的 思想 ,有 兴 
趣 的 读者 不 难 自 己 补 充 其 细 节 。 

如 果 采 用 正确 的 方法 , 则 删 去 的 问题 可 以 在 O(log N ) 步 内 解决 [C.C.Foster， 
“A Study of AVL Trees” ,Goodyear Aerospace Corp. report GER-12158 (1965 年 4 
月 )]。 首 和 完 , 我 们 可 以 把 任意 市 点 的 删 去 简单 地 归结 为 一 个 节点 的 删 去 ,对 这 个 
节点 PP 来 说 ,如 同 在 算法 6.2.2D 中 那样 ,LLINK(P) 或 RLINK(P) 是 A。 这 个 算法 还 应 
加 以 修改 使 它 造 一 张 确定 到 节点 P 的 通路 的 指针 表 , 即 

(Po ,ao),( Pi,al)， “""， (P,, a1) (16) 

其 中 ,Pu=HEAD,ao= +1; 对 于 O01i<1,LINK(a;,P;)=P,,;i,P,= P; 而 且 LINK(Q,, 
P,) = A 。 当 我 们 往 下 查找 树 时 ,这 张 表 可 放置 在 一 个 辅助 栈 上 。 删 去 节点 P 的 过 
程 置 LINK(aj-1,P, -1)< 一 LINK( 一 a,P,), 而 且 我 们 必须 调整 节点 P,_1 处 的 平衡 因 
子 , 因 为 这 个 节点 的 a; 子 树 的 高 度 刚 刚 减少 了 ;应 该 使 用 下 列 调整 方法 :如 果 上 = 
0, 则 置 LLINK(HEAD)<-LLINK(HEAD) 一 1 并 结束 此 算法 ,因为 整个 树 高 度 减少 了 。 否 
则 考察 平衡 因子 B(Pi); 有 三 种 情况 : 

i) B(P,)=a。 置 B(P)<-0,& 减 1, 并 对 的 新 值 重复 此 调整 方法 。 

ii) B(P;)=0。 置 B(P,) 为 -a 并 结束 删 去 算法 。 

iii) B( Pi )= 一 a。 需要 重新 平衡 ! 
需要 重新 平衡 的 这 些 情 况 , 几乎 同 我 们 在 插入 算法 中 过 到 的 一 样 ;再 次 参考 (1),A 
是 市 点 Ps,B 是 节点 LINK( 一 ak PR) , 它 在 与 出 现 删 去 的 分 文 相 反 的 分 支 上 。 人 惟一 
的 新 特征 是 节点 B 可 能 是 平衡 的 ;这 导致 一 个 新 的 情况 3, 它 和 情况 1 类似 ,但 8 的 
高 度 是 h +1。 在 情况 1 和 2 中, 如同 在 (2) 中 那样 的 重新 平衡 意味 着 减少 高 度 , 所 以 
我 们 置 LINK(a4_1,P,-_i) 为 (2) 的 根 ,k 减 1, 并 对 这 个 新 的 & 值 重 新 开始 调整 。 在 
情况 3 中 ,我 们 做 一 个 单 转动 ,这 就 保持 了 A 和 B 两 者 的 平衡 因子 非 0 ,而 不 改变 整 
个 高 度 ; 因 此 ,在 使 LINK(a -li, Pei) 指向 市 点 之 后 ,我 们 就 结束 这 个 算法 。 

删 去 和 插 人 之 间 的 重要 差别 是 : 删 去 可 能 需要 多 达 log N 次 转动 ,而 插入 所 需 
的 转动 决 不 多 于 一 次 。 如 果 我 们 试图 删 去 一 株 匡 波 那 契 树 最 右 的 节点 ( 见 6.2.1 小 
节 图 8) ,那么 ,这 个 原因 就 显得 很 清楚 了 。 但 是 经 验 测试 表明 ,每 次 删 去 平均 只 需 
作 0.21 次 转动 。 

对 于 线性 表 表 示 使 用 平衡 树 ,也 提示 了 需要 一 个 连接 算法 ,以 便 把 整 株 树 L, 插 
人 到 树 Lj 的 右边 ,而 不 破坏 平衡 。Clark A Crane, 已 经 首先 想 出 了 用 于 连接 的 漂亮 
算法 :假设 高 度 ( 工 |) 之 高 度 ( 工 )) ;其它 情况 是 类 似 的 。 删 去 工 , 的 头 一 个 节点 , 称 它 
为 交界 节点 了 并 令 Ls 代表 新 树 L;\ i。 现在 顺 着 Li 的 诸 右 链接 往 下 走 , 直 到 
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高 度 (P) - 高 度 (L2) = 0 或 1 
为 止 ; 这 总 是 可 能 的 ,因为 每 往 下 走 一 级 ,高 度 就 改变 1 或 2, 然 后 以 


0, 


来 代 蔡 42) ,进而 调整 L ,就 好 像 新 节点 是 刚 由 算法 A 插入 的 那样 。 


Crane 还 解决 了 更 困难 的 求 逆 问题 ,把 一 个 表 分 成 为 两 部 分 ,使 得 3 它们 的 因 接 还 
是 原来 的 表 。 例 如 ,考虑 把 图 20 中 的 表 分 开 来 得 到 两 个 表 ， A, I| ,为 一 


个 含 1] ,…,Q1; 这 需要 对 于 诸 子 树 作 大 量 的 重 
组 工作 ,一 般 地 说 , 当 我 们 需要 在 某 个 给 定 的 节 
点 PP 处 来 分 开 一 株 树 时 ,到 P 的 通路 有 些 像 图 
25 中 那样 。 我 们 希望 构造 一 株 左 树 , 它 以 对 称 
次 序 包 含 ol ,Pi,as, Pi,a6,Pe,a7,;,Py,a,P 诸 
市 点 ,以 及 一 株 右 树 , 它 包含 8, Pg, Be, Ps, Bs， 
P;,PB3,P;,B，。 这 可 以 通过 一 系列 的 连接 来 做 : 
首先 在 a 的 右边 插入 P, 然 后 利用 Ps 作为 交界 
方 点 连接 B 和 Ps ,利用 Pj; 作为 交界 节点 连接 o 
和 aP, 利 用 P. 连接 和 oPyaP ,利用 Ps 连接 
BBs Bs, 等 等 ;在 到 P 的 通路 上 的 节点 Ps， 
` ,Pi 均 被 用 作 交 界 节 点 。Crane 已 经 证 明 ， 
汪 让 的 风 包 人 NN 个 市 点 时 ,这 个 分 开 算 法 仅 花 
费 O(log N) 个 时 间 单 位 ;实际 的 原因 是 利用 一 
个 给 定 的 交界 点 的 连接 要 花费 O(k) 步 ,其 中 上 
是 正 被 连接 的 树 之 间 的 高 度 差 ,而且 必须 累加 起 





图 25 ”分开 一 个 表 的 问题 


来 的 & 的 值 实 质 上 形成 了 正 被 构造 的 左 树 和 右 树 两 者 的 一 个 收缩 的 级 数 。 

所 有 这 些 算法 都 可 以 利用 KEY 或 RANK 字段 或 者 两 者 使 用 ,尽管 在 连接 的 情况 
下 , 工 ; 的 键 码 必须 全 都 大 于 Li 的 键 码 。 为 了 通用 的 目的 ,通常 可 取 的 是 使 用 一 株 
三 重 链接 的 树 , 它 具 有 UP 链 以 及 LLINK 和 RLINK ,连同 一 个 新 的 一 位 二 进位 字段 ,这 
个 字段 确定 一 个 节点 是 其 父亲 的 左 儿 子 还 是 右 儿 子 。 三 重 链接 树 表 示 稍 微 简化 了 
这 些 算法 ,并 且 使 我 们 有 可 能 确定 树 中 的 节点 而 无 需 明 确 地 跟踪 通 到 该 节点 的 通 
路 ;给 定 P, 我 们 可 以 写 出 一 个 子 程 序 删 去 NODE(P) ,或 者 删 去 在 对 称 次 序 下 跟随 
NODE(P) 的 节点 或 者 求 出 包含 NODE(P) 的 表 ,等 等 。 在 三 重 链接 树 的 删 去 算法 中 不 必 
构造 表 (16) ,因为 UP 链 为 我 们 提供 了 所 需要 的 信息 。 当 然 , 当 插 人 、 删 去 和 转动 正 
被 实施 时 ,一 株 三 重 链接 树 要 求 改 变 稍 微 多 的 链接 。 使 用 一 株 三 重 链接 树 来 代替 一 
株 双 重 链接 树 ,类 似 于 使 用 两 路 链接 代替 一 路 链接 的 情形 :我 们 可 以 从 任意 点 开始 ， 
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或 向 前 进行 或 向 后 进行 。 以 三 重 链接 平衡 树 为 基础 的 表 算 法 的 完整 的 描述 ,出 现在 
Clark A Crane 的 博士 论文 中 (斯 坦 福 大 学 ,1972 ) 。 


AVL 树 的 一 些 选择 ”许多 组 织 树 的 其 它 方法 已 被 提出 ,以 保证 对 数 阶 的 存 取 
时 间 。 例 如 ,C.C.Foster[CACM 16 (1973) ,513 一 $17] 考虑 了 当 我 们 允许 子 树 的 高 
度 差 至 多 为 时 出 现 的 二 叉 树 。 这 样 的 结构 可 称 做 HBL&] 树 (意思 是 “高 度 平 
衡 ”) ,而 通常 的 平衡 树 表示 其 特殊 情况 HBL11]。 

加 权 平 衡 树 的 有 趣 概 念 ,已 经 为 ].Nievergelt, E.Reingold 和 黄 泽 权 所 研究 。 不 
去 考虑 树 的 高 度 ,他 们 约定 所 有 节点 的 子 树 必须 满足 

(3-1< ES <Vi+1 (17) 
其 中 ,左权 和 右 权 分 别 累计 左 子 树 和 右 子 树 中 外 节点 的 数目 。 有 可 能 证 明 , 仪 仅 利 
用 如 算法 A 中 进行 重新 平衡 的 单 转 动 和 双 转 动 , 在 插入 之 下 仍 能 维持 权 的 平衡 。 
(参见 习题 25)。 然 而 ,在 一 次 插入 期 间 可 能 需要 做 许多 重新 平衡 。 在 增加 查找 时 
间 的 条 件 下 ,减少 重新 平衡 的 次 数 , 有 可 能 放松 (17) 的 条 件 。 

在 一 看 , 权 平衡 树 似乎 比 以 前 单纯 的 平衡 树 需要 更 多 的 内 存 。 但 是 事实 上 , 它 
们 有 时 要 求 反倒 稍 少 些 ! 对 于 线性 表 表 示 ,如 果 每 个 节点 已 有 一 个 RANK 字段 , 则 这 
恰巧 是 左权 。 而 当 我 们 沿 树 下 移 时 ,有 可 能 记 住 对 应 的 右 权 。 然 而 ,为 了 维持 权 平 
衡 所 需要 的 管理 操作 ,看 来 要 花费 比 算法 A 更 多 的 时 间 , 而 每 个 节点 省 去 两 位 二 进 
数位 ,似乎 还 抵 不 上 所 增加 的 用 烦 。 

Why don 't you pair em up in threes? 
为 什么 你 不 把 它们 配对 成 三 个 呢 ? 
一 一 好 属于 YOGJ BERRA (大 约 1970 年 ) 

AVL 树 的 另 一 种 有 趣 的 选择 , 称 做 “2-3 树 ”, 它 是 由 John Hopcroft 于 1970 年 提 
出 的 [ 见 Aho,Hopcroft 和 Ullman,The Design 
and Analysis of Computer Algorithms (Mass: 
Addison-Wesley,1974), 第 4 章 ]。 这 个 思想 要 
求 在 每 个 节点 处 作 2 路 分 支 或 3 路 分 文 ,并 约 
定 所 有 外 节点 都 出 现在 相同 的 级 上 。 每 个 内 
节点 包含 一 个 或 两 个 键 码 ,如 图 26 所 示 。 图 26 一 株 2-3 树 

插入 到 一 株 2-3 树 要 比 插入 到 一 株 平 衡 树 易于 说 明 :如 果 我 们 要 把 一 个 新 的 键 
码 插入 到 仅 含 一 个 键 码 的 节点 中 , 则 只 要 简单 地 把 它 插 人 作为 第 二 个 键 码 。 夯 一 方 
面 ,如 果 这 个 节点 已 经 含有 两 个 键 码 , 则 我 们 就 把 它 分 为 两 个 各 有 一 个 键 码 的 市 点， 
而 把 中 间 的 键 码 插入 到 父母 节点 处 。 如 果 父 母 节点 已 有 两 个 键 码 ,这 又 可 以 引起 父 
母 节 点 以 相同 的 方式 被 划分 。 图 27 示 出 了 把 一 个 新 的 键 码 插 入 到 图 26 的 2-3 树 的 
过 程 。 

Hopcroft 发 现 , 正 像 在 AVL 树 的 对 应 操作 那样 ,对 于 2-3 树 也 可 以 相当 直 截 了 
当 的 方式 进行 删 去 、 连 接 和 分开 等 操作 。 
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图 27 把 新 键 码 “M” 插 入 图 26 的 2-3 树 中 


R.BayerLProc. ACM-SIGFIDET Workshop (1971) ,219 一 23$] 已 经 提议 使 用 2-3 
树 的 一 种 有 趣 的 二 又 树 表示 。 见 图 28 , 它 给 出 图 26 的 二 叉 树 表示 ;在 每 个 节点 中 ， 
用 一 个 二 进位 来 区 分 诸 “ 水 平 "的 RLINK 和 诸 "“ 垂 直 " 的 RLINK。 注 意 , 正 如 任何 二 分 
查找 树 那 样 , 树 的 键 码 以 对 称 方式 从 左 到 右 出 现 。 结 果 表 明 , 当 我 们 如 图 27 那样 插 
入 一 个 新 键 码 时 ,在 这 样 一 株 二 叉 树 上 需要 实施 的 转换 ,恰恰 是 把 一 个 新 键 码 插 人 
到 一 株 AVL 树 时 所 用 的 单 转动 和 双 转 动 , 不 过 我 们 只 需要 一 个 单 转动 和 一 个 双 转 
动 ,而 不 是 在 算法 A 和 C 中 的 左右 反 演 。 





图 28 图 26 的 2-3 树 表示 成 一 株 二 分 查找 树 


对 这 些 思想 的 精心 推敲 已 经 导致 许多 另外 风味 的 平衡 树 , 最 著名 的 有 红 黑 树 ， 
也 叫做 对 称 二 叉 B 树 或 半 平 衡 树 [R.Bayer,Acta Informatica 1 (1972),290 一 306; 
L.Guibas 和 R.Sedgewick ,FOCS 19 (1978),8~21;H.J.Olivie, RAIRO Informa- 
tique Theorique 16 (1982),51~71;R.E.Tarjan,Inf, Proc. Letters 16(1983),253~ 
257;T.H.Cormen,C.E.Leiserson 以 有 R.L.Rivest,Introduction to Algorithms( 麻 省 
理工 学 院 出 版 社 ,1990) ,第 14 章 ;R.Sedgewick,Algorithms in C (Addison-Wesley， 
1997),$ 13.4]。 有 一 个 称 为 软 斯 底 里 的 B 树 或 (a ,6b) 一 树 的 很 密切 关联 的 族 。 主 
要 是 (2,4) - 树 [D.Maier 和 S.C.Salveter Inf. Proc. Letters 12(1981),199 ~ 202 ; 
S.Huddleston 和 K Mehlhorn ,Acta Informatica 17(1982),157~184]。 

当 对 一 些 键 码 的 访问 要 比 对 其 它 键 码 的 访问 更 频繁 得 多 时 ， 如 同 在 6.2.2 小 
广 中 最 优 二 分 查找 树 一 样 ， 我 们 要 使 这 些 重要 的 键 码 相对 地 靠近 根 。S.W .Bent， 
D.D. Sleator 和 R.E.Tarjan, SICOMP 14 ( 198$ ), 545~568; J. Feigenbanm 和 
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R.E.Tarjan,Bell System Tech J. 62 (1983) ,3139 一 31$8 已 经 提出 了 称 为 有 偏向 树 
的 动态 树 ,这 种 树 使 得 有 可 能 在 最 优 的 一 个 常数 因子 的 范围 内 维持 加 权 的 平衡 。 然 
而 ,这 些 算法 十 分 复杂 。 

基于 和 6.1 市 中 讨论 的 移 向 前 面 和 转换 位 置 的 启发 或 探索 相 类 似 的 思想 ,随后 
D.D.Sleator 和 R.E.Tarjan 提出 了 称 为 倾 针 树 的 简单 得 多 的 自 调整 数据 结构 
LJACM 32(1985) ,652 一 686]; 在 此 之 前 ,B.Allen 和 1I.Mnuro[JACM 25(1978),526 
一 535] 和 J.BitnerLSICOMP 8(1979) ,82 一 110] 已 经 剖析 了 类 似 的 技术 。 人 倾斜 树 和 
上 和 面 已 经 提 到 过 的 其 它 类 型 的 平衡 树 一 样 , 既 支 持 插入 和 删 去 ,也 支持 连接 和 分 开 
操作 ,而 且 是 以 一 种 特别 简单 的 方式 进行 的 。 而 且 , 当 对 任何 操作 序列 平 挫 时 ,已 知 
为 访问 在 一 个 倾斜 树 中 的 数据 所 需要 的 时 间 至 多 是 对 于 静态 最 优 树 的 访问 时 间 的 
一 个 小 的 常数 倍 。Sleator 和 Tarjan 猜测 ,对 倾斜 树 总 共 的 访问 时 间 至 多 是 通过 无 论 
什么 样 的 二 又 树 算法 来 访问 数据 和 动态 地 实施 转动 的 最 优 时 间 的 一 个 常数 倍 。 

随机 化 导致 了 一 些 这 样 的 方法 ,它们 看 起 来 甚至 比 倾斜 树 更 简单 .更 快 。Jean 
Vuillemin [CACM 23 (1980),229 一 239] 引 进 了 笛 卡 儿 树 ,其 中 每 个 节点 有 两 个 键 码 
(zy)。z 部 分 如 同 在 二 分 查找 树 中 一 样 是 自 左 至 右 有 序 的 ;y 部 分 如 同 在 5.2.3 
小 节 的 优先 队列 树 一 样 是 由 顶 向 下 有 序 的 。 C.R.Aragon 和 R.G.Seidel 对 这 个 数 
据 结 构 起 了 个 更 有 色彩 的 名 称 树 堆 (treap)。 因 为 它 很 利落 地 把 树 的 概念 和 堆 的 概 
念 组 合 在 一 起 。 精 确 地 说 ,如 果 诸 x 和 诸 y 都 不 同 , 则 一 个 树 堆 可 以 通过 ”个 给 定 
的 键 码 对 (zi,yi)，… (zw 办 ) 构 造 出 来 。 得 到 它 的 一 个 方法 是 按照 y 的 次 序 , 通 
过 算法 6.2.2T 插 入 诸 zj; 但 还 有 一 个 简单 的 算 潜 , 它 把 任何 新 的 键 码 直接 插 人 到 任 
何 树 堆 中 。Aragon 和 Seidel [FOCS 30(1989) ,540 一 $46] 发 现 , 如 果 诸 x 是 通常 的 
键 码 而 诸 y 是 随机 选择 的 , 则 我 们 可 以 确信 , 树 堆 有 一 个 随机 二 分 查找 树 的 形状 。 
特别 是 ,具有 随机 y 值 的 一 个 树 堆 将 总 是 相当 好 地 平衡 的 ,但 有 指数 上 很 小 的 概率 
(参见 习题 5.2.2-42)。Aragon 和 Seidel 还 证 明 , 树 堆 能 很 容易 地 成 为 有 偏向 的 ,使 
得 比如 说 , 当 具 有 相对 频率 f 的 一 个 键 码 zx 同 y= LU 相关 联 时 , 则 这 个 键 码 将 稳定 
地 接近 根 而 出 现 , 其 中 UU 是 0~1 之 间 的 一 个 随机 数 。 由 D.E.Knuth 所 作 的 同 凸 外 
学 的 计算 有 关 的 一 些 实验 中 [Lecture Notes in Comp. Sci. 606(1992 ) ,53 一 55 |]。 树 堆 
的 性 能 一 致 地 比 倾斜 树 更 好 些 。 

亚 书 的 下 一 版 本 计划 把 新 的 6.2.5 小 节 专 用 于 讨论 随机 化 的 数据 结构 , 它 将 讨 
论 “ 卡 越 表 ”LW.Pugh, CACM 33(1990),668 一 676) ] 以 及 “随机 化 的 二 分 查 捧 本 ” 
[S. Roura 和 C. Martinez, JACM 45(1998) ,288 一 323 1], 以 及 村 堆 。 


习题 


1.L01] 在 (1) 的 人 情况 2 中 ,为 什么 通过 简单 地 交换 A 和 B 的 左 子 树 来 恢复 平衡 并 不 是 一 种 
好 的 想法 ? 
2.[16] 如 果 我 们 以 B(S) =0 达到 步骤 A7 , 试 说 明 为 什么 这 株 树 会 高 出 一 级 来 。 
3.[M25] 证 明 : 具 有 N 个 内 部 节点 的 一 株 平衡 树 决 不 包含 多 于 (上 -1)Ns0.61803N 个 其 
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平衡 因子 非 0 的 节点 。 
4.[M22 ] 证 明 或 否定 :在 具有 F411- 1 个 内 部 节点 的 所 有 平衡 树 当 中 , 阶 数 为 hh 的 斐 波 那 
契 树 有 最 大 的 内 部 路 径 长 度 。 

了 > 5.[ M25 ] 证 明 或 否定 :如果 使 用 算法 A 以 递增 次 序 逐 次 地 插入 链 ”KK,,…, Kw 到 开始 时 仅 
含 单个 键 码 K| 的 一 株 树 中 ,其 中 KK<K < …<KN, 则 所 产生 的 树 总 是 最 优 的 ( 即 在 所 有 N 节 
点 的 二 叉 树 中 , 它 有 极 小 内 部 路 径 长 度 )。 

6.[ M21] 证 明 等 式 (5) 定 义 了 高 度 为 h 的 平衡 树 的 生成 函数 。 

7.[M27] (N.J.A.Sioane 和 A.V.Aho) ”证 明 高 度 为 的 平衡 树 个 数 的 著名 公式 (9)。[ 提 
示 : 设 C,= B+ B,-1, 且 利用 如 下 事实 , 即 对 于 很 大 的 ,log (C, ;1/C?) 非常 小 。] 

8.[M24 ] (L.A.Knizder) 证 明 存在 一 个 常数 8, 使 得 当 有 -> 吕 时 , B%(1)/B,(1)=248 一 1+ 
O(2°/B, 1)。 

9.[ HM44 ] 具有 nn 个 内 节点 的 平衡 二 叉 树 的 近似 株数 沁 ;o Bs 等 于 多 少 ? 近似 平均 高 度 
,>0hB,s/ ,>0Bwy 等 于 多 少 ? 

> 10.[27]」 (R.C.Richards) 证明, 一 个 平衡 树 的 形状 可 以 由 它 的 平衡 因子 表 B(1)B(2)… 
B(N) 以 对 称 次 序 惟一 地 构造 出 来 。 

P11.[ M24 ] (Mark R.Brown) 证 明 当 n 宇 6 时 ,在 由 算法 A 构造 的 个 内 节点 的 一 株 随 机 平 
衡 树 中 ,其 类 型 为 +-A、-A、+ +B、+ -B、- +B、 一 ~B 等 的 任何 一 种 的 外 节点 的 平均 个 数 怡 为 (nn 
+ 1)/14。 

> 12.|24」] 当 把 八 个 节点 插入 到 一 株 平衡 树 中 时 ,程序 A 可 能 的 极 大 运行 时 间 是 多 少 ? 对 于 
这 个 插入 ,可 能 的 极 小 运行 时 间 是 多 少 ? 

13.[05] 为 什么 比较 好 的 办 法 是 如 正文 中 定义 的 那样 使 用 RANK 字段 ,而 不 是 简单 地 存储 每 
个 节点 的 下 标 作 为 它 的 键 码 ( 称 第 一 个 节点 “1”, 第 二 个 节点 “2”, 等 等 )? 

14.L11] 能 否 修 改 算法 6.2.2T 和 6.2.2D 使 它们 对 线性 表 也 适用 ,使 用 一 个 RANK 字段 ,就 如 
同 对 本 小 节 的 平衡 树 算法 所 进行 的 修改 那样 。 

15.[18」(C.A.Crane) 假设 一 个 有 序 线性 表 被 表示 为 一 株 二 叉 树 ,有 目 在 每 个 节点 处 有 KEY 
和 RANK 字段 。 试 设计 一 个 算法 , 它 在 树 上 查找 一 个 给 定 的 键 码 K, 并 确定 K 在 表 中 的 位 置 ; 即 , 它 
求 得 数 m ,使 得 K 是 第 mm 个 最 小 的 键 码 。 | 

16.[20] 利用 正文 中 的 删 去 算法 ,在 从 图 20 中 同时 删 去 节点 EE 和 根 节 点 F 之 后 , 便 得 到 一 株 
平衡 树 。 试 画 出 这 株 树 。 

17.[21] 利用 正文 中 建议 的 连接 算法 ,把 斐 波 那 契 树 (12) 连 接 到 图 20 中 树 (a) 右 边 ,(b) 左 边 
之 后 , 便 得 到 两 株 平衡 树 。 试 画 出 这 两 株 树 。 

18.[22] 利用 正文 中 所 建议 的 分 开 算 法 ,把 图 20 分 成 两 部 分 1A,… ,I| 和 1|J,… ,0Q| 之 后 便 得 
到 两 株 平衡 树 。 试 画 出 这 两 株 树 。 

》 19.[26] 找 出 一 个 方法 ,转换 一 株 给 定 的 平衡 树 ,使 得 在 根 处 的 平衡 因子 不 是 - 1。 你 的 转换 
应 该 保持 节点 的 对 称 次序 ; 而 且 不 管 原 有 树 的 大 小 如 何 , 它 都 应 该 在 O(1) 的 时 间 单 位 中 产生 另 一 
株 平衡 树 。 

20.140]j 削 析 利用 有 限制 的 一 类 平衡 树 的 思想 ,这些 树 的 节点 的 平衡 因子 限于 是 0 或 +1。 
(于 是 B 字 段 的 长 度 可 减 小 到 一 个 二 进 数 位 )。 对 于 这 样 的 树 是 否 有 一 个 相当 有 效 的 插入 过 程 ? 

了 21.L30」] (完全 平衡 试 设计 一 个 算法 , 它 构 造 习题 5 的 意义 下 是 最 优 的 N 个 节点 的 二 又 
树 。 你 的 算法 应 该 使 用 O(N) 步 而 且 是 “联机 的 ”, 即 是 说 , 它 逐 个 地 以 递增 的 次 序 输入 节点 ,并 随 
即 构 造 部 分 树 ,而 不 必 有 预先 知道 N 的 最 后 的 值 。( 当 重新 构造 一 株 失去 平衡 的 树 时 ,或 者 当 合 并 
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两 株 树 的 键 码 成 为 一 株 树 时 ,使 用 这 样 一 个 算法 是 适当 的 。) 

22.| AM20j 对 于 加 权 平 衡 树 ,类 似 于 定理 A 的 结果 是 什么 ? 

23.[ M20] (E.Reingold) 证 明 高 度 平衡 树 与 加 权 平 衡 树 之 间 没 有 简单 的 关系 。(a) 证 明 在 
(17) 的 意义 下 存在 (左权 )/( 右 权 ) 为 任意 小 比值 的 加 权 平 衡 树 。(b) 证 明 存 在 其 左 子 树 和 右 子 树 
的 高 度 差 为 任意 大 的 加 权 平 衡 树 。 

24.[ M22 |」 (E.Reingold)” 证明, 如果 我 们 把 条 件 (17) 增 强 到 

到 < 硅 攻 < 2 
则 满足 这 一 条 件 的 仅 有 的 二 叉 树 是 具有 2” -1 个 内 节点 的 完全 平衡 树 (在 这 样 的 树 中 ,左权 和 右 
权 在 所 有 节点 处 都 完全 相等 ) 。 

25 .| 27] (J .Nievergelt,E.Reingold, 黄 泽 权 ) 证 明 有 可 能 设计 加 权 平 衡 树 的 插入 算法 ,使 得 
条 件 (17) 成 立 , 并 且 使 得 每 个 插入 至 多 进行 O(log NN) 次 转动 。 

26.[40] 试 剖 析 对 于 :>2 的 平衡 i 又 树 的 性 质 。 

了 > 27.[ M23 ] 试 估计 在 有 N 个 内 节点 的 2-3 树 中 进行 查找 所 需要 的 极 大 比较 次 数 。 

28.[41 ] 编制 2-3 树 算法 的 有 效 实现 方案 。 

29.[M47] 试 分 析 在 随机 插入 下 ,2-3 树 的 平均 特性 。 

30.[26] (E.McCreight) 2.5 节 讨 论 了 动态 存储 分 配 的 若干 策略 ,包括 “最 好 的 适合 ”( 从 满 
足 要 求 的 所 有 那些 区 域 当中 选择 尽 可 能 小 的 可 利用 区 域 ) 和 * 第 一 个 适合 ”( 在 所 有 满足 要 求 的 那 
些 区 域 当中 选择 具有 最 小 地 址 的 可 利用 区 域 )。 证 明 , 如 果 以 一 种 适当 的 方式 把 可 利用 空间 链接 
在 一 起 成 为 一 株 平衡 树 , 则 有 可 能 只 需要 O(log ”) 个 时 间 单 位 来 进行 (a) 最 好 的 适合 和 (b) 第 一 
个 适合 的 分 配 ,其 中 n 是 可 利用 区 域 数 (在 2.5 节 中 给 出 的 算法 ,花费 阶 为 n 步 )。 

31.[34](M.L.Fredman 1975) ”试想 出 具有 如 下 性 质 的 线性 列表 的 一 个 表示 
在 位 置 m 一 1 和 m 之 间 插 入 一 个 新 节点 花费 O(log m) 个 时 间 单 位 。 

32.[M27] 给 定 两 个 ”节点 的 二 叉 树 了 和 人 ,如 果 通 过 一 序列 的 0 次 或 多 次 向 右 的 转动 ,由 
人 可 得 到 人 T, 就 说 T 委 T。 证明 TT' 当 且 仅 当 对 于 1 二 二 nn ,7 二 7 ,其 中 和 vr; 表示 在 对 
称 次 序 下 了 和 了 的 第 & 个 节点 的 右 子 树 分 别 的 大 小 。 

了 P33.[25] (A.L.Buchsbaum) 说 明 怎 样 含 鞭 地 对 一 个 AVL 树 的 平衡 因子 进行 编码 ,这 样 当 
对 此 树 进行 访问 时 ,以 增加 工作 量 为 代价 ,每 个 节点 节省 两 个 二 进位 。 


Samuel considered the nation of Israel, tribe by tribe， 





给 定 m， 


and the tribe of Benjamin was picked by lot. 
Then he considered the tribe of Benjamin, family by family, 
and the family of Matri was picked by lot. 
Then he considered the family of Matri, man by man, 
and Saul son of Kish was picked by lot. 
But when they looked for Saul he could not be found. 
密级 尔 投 雳 琉 一 个 一 个 地 考虑 以 色 列 的 民族 ,并 月 殷 人 签 选 中 了 杰 杰 明 的 部 洪 。 
然后 化 失 家 获 一 个 一 个 她 考 繁 本 杰 明 的 部 法 ,并 日 势 签 选中 马 竺 里 的 家 矿 。 
然后 驰 迭 人 一 个 一 个 地 考虑 马 特 里 的 家 族 , 并 月 损人 签 选中 堆 斯 的 儿子 索 尔 。 
人 得当 危 休 寻 的 老 尔 有 时 , 却 找 不 到 人 他。 
一 1 Samuel 10:20— 21 
* 448 ， 
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6.2.4 多 路 树 


我 们 一 直 在 讨论 的 树 查找 方法 主要 用 于 内 部 查找 , 即 所 要 考察 的 表 是 完全 包含 
在 计算 机 高 速 内 存 中 的 。 下 面 我 们 考虑 , 当 从 一 个 非常 大 的 文件 中 查找 信息 时 进行 
外 部 查找 的 问题 。 这 些 非常 大 的 文件 ,出 现在 直接 存 取 存储 装置 ,例如 磁盘 或 磁 屁 
上 (5.4.9 小 节 有 关于 磁盘 和 磁 鼓 的 介绍 ) 。 

如 果 我 们 选择 一 种 适当 的 方法 来 表示 树 ,那么 树 结构 本 身 很 适合 于 外 部 查找 。 
考虑 图 29 中 所 示 的 大 型 二 分 查找 树 , 并 想像 它 已 经 存在 一 个 磁盘 文件 中 ( 树 的 
LLINK 和 RLINK 现在 是 磁盘 地 址 而 不 是 内 存 地 址 )。 如 果 我 们 以 一 个 朴实 的 方式 查 
找 这 株 树 ,简单 地 应 用 对 内 部 树 查找 已 经 学 过 的 算法 , 则 大 约 要 做 lgN 次 磁盘 访问 ， 
才能 完成 查找 。 当 六 是 100 万 时 ,这 意味 着 我 们 需要 做 20 次 左右 的 寻找 。 但 假如 
把 这 个 表 分 成 许多 7 个 节点 的 “页 ”, 如 图 29 中 虚线 所 示 ; 如 果 我 们 一 次 访问 一 页 ， 
则 仅 需 要 前 述 次 数 的 三 分 之 一 ,所 以 查找 大 约 快 三 倍 。 
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图 29 一 株 大 型 二 分 查找 树 可 以 分 成 许多 “页 ” 


以 这 一 方式 把 节点 组 合成 页 ,实际 上 把 一 株 二 又 树 变 成 了 八 又 树 ,在 每 个 页 节 
点 处 有 8 路 分 支 。 如 果 我 们 让 页 更 大 一 些 , 在 每 次 磁盘 访问 之 后 有 128 路 分 支 , 则 
在 仅仅 寻找 三 页 之 后 ,我 们 就 可 以 在 一 个 百 万 键 码 的 表 中 找 出 任何 所 希望 的 键 码 。 
根 页 可 以 常 驻 内 存 , 因 此 只 需 对 磁盘 进行 两 次 访问 ,而 且 在 任 一 时 刻 ,内 存 中 的 键 码 
数 都 不 超过 254 个 。 

当然 我 们 不 要 使 页 任意 大 ,因为 ,内 存 的 大 小 有 限 ,并 且 它 需 花 费 更 长 的 时 间 来 
读 人 一 个 更 大 的 页 。 例 如 ,假设 它 花 费 72.5+0.05mms 来 读 允 许 m 路 分 支 的 一 个 
页 ,每 页 的 内 部 处 理 时 间 约 为 w+ blg m ,其 中 a 相对 72.5ms 来 说 是 很 小 的 ,因此 ， 
为 查找 一 个 大 表 所 需要 的 时 间 总 量 近似 地 正比 于 lg NN 乘 以 

~ (72.5+0.05m)/lgm+6 

当 m 守 307 时 ,这 个 量 实现 极 小 值 ;实际 上 , 极 小 值 是 非常 “ 广 ” 的 ,200 一 S00 之 

间 的 所 有 m 都 接近 于 达到 一 个 最 优 值 。 实 践 中 ,根据 具体 外 部 存储 设备 的 特征 ,以 
“ 449 。 
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图 30 阶 为 7 的 一 株 B 树 ,所 有 了 叶 都 在 第 3 级 上 。 每 个 节点 包含 3,4,5 或 


“ 450 ， 


6 个 键 码 。 在 键 码 449 之 前 的 叶 已 标记 了 A ;参见 (8) 


6.2 通过 键 码 比较 进行 查找 


及 表 中 记录 的 长 度 , 将 有 一 个 类 似 的 好 的 mm 值 范 围 。 

W .I.Landauer| IEEE. Trans. EC-12(1963) ,863 一 871] 提 议 ,在 构造 一 株 m 又 
树 时 ,首先 要 使 第 ! 级 接近 充满 ,然后 才能 往 第 /+1 级 上 放 东 西 。 这 个 方案 需要 一 
个 相当 复 林 的 转动 方法 ,因为 可 能 需要 对 整 株 树 作 重 大 的 改变 才能 插入 一 个 新 的 项 
目 ;Landauer 假设 ,我 们 需要 比 插入 或 删 去 项 目 更 为 经 常 得 多 地 查找 树 中 的 项 目 。 

当 一 个 文件 存在 磁盘 上 , 且 播 和 或 删 去 不 多 时 , 则 一 株 三 极 树 是 适当 的 。 其 中 
分 文 的 第 一 级 确定 使 用 什么 柱 面 ,分 支 的 第 二 级 确定 在 该 柱 面 上 的 适当 的 磁道 ,第 
三 级 包含 记录 本 身 。 这 个 方法 称 为 索引 顺序 文件 组 织 [ 参 见 JACM 16(1969) ,569 
~S71 | 。 

R.Muntz 和 R. Uzgalis | Proc. Princeton Conf on Inf. Sciences and Systems 4 
(1970),345 一 349] 已 经 提议 修改 树 查 找 和 插入 方法 , 即 算法 6.2.2T, 使 得 只 要 可 
能 ,就 让 所 有 插入 都 对 那些 与 其 父亲 节点 属于 相同 页 的 节点 进行 ;如 果 该 页 已 满 , 则 
只 要 可 能 ,就 开始 一 个 新 的 页 。 如 果 页 数 无 限 , 且 如 果 数 据 以 随机 的 次 序 到 达 , 则 可 
以 证 明 ,平均 页 存 取 次 数 近似 为 HN/( 昌 ,一 1), 仅 比 我 们 在 最 好 的 mx 叉 树 中 所 得 到 
的 稍 向 多 一 氮 ( 见 习题 18)。 


B 树 1970 年 R.Bayer 入 .McCreight 已 经 发 现 了 借助 多 路 树 分 支 研 究 外 部 
查找 的 一 个 新 方法 [Acta Informatica 1(1972) ,173 一 189] ,而 且 大 约 在 同一 时 间 
M.Kaufman 也 独立 地 发 现 了 同一 方法 [未 发 表 ]。 他 们 的 思想 ,是 以 一 类 称 为 B 树 
的 多 方面 适用 的 新 型 数据 结构 为 基础 的 , 它 使 得 在 最 坏 的 情况 下 , 仍 有 可 能 利用 比 
较 简 单 的 算法 ,以 “有 保证 的 "效率 来 查找 和 更 新 一 个 大 型 文件 。 

阶 m 的 一 株 B 树 ,是 满足 下 列 性 质 的 一 株 树 

i) 每 个 证 点 至 多 有 m 个 儿子 。 

i) 除了 根 和 叶 之 外 ,每 个 节点 的 儿子 个 数 至 少 是 x/2。 

ii) 根 至 少 有 两 个 儿子 (除非 它 是 一 片 叶 )。 

iv) 所 有 叶 都 出 现在 同一 级 上 ,而 且 不 带 信息 。 

v) 共有 个 儿子 的 非 叶 节点 含有 一 1 个 键 码 。 

(通常 ,一 片 " 叶 "是 一 个 终端 节点 , 它 没 有 儿子 。 因 为 叶 不 带 有 信息 ,故我 们 可 
以 把 它们 看 做 实际 上 不 在 树 内 的 外 部 节点 ,因而 A 是 指向 一 片 叶 的 指针 。) 

图 30 示 出 阶 7 的 一 株 吾 树 ,每 个 节点 (除根 和 叶 外 ) 都 有 介 于 [7/21 和 7 之 间 的 儿子 ， 
所 以 它 包 含 3.4.5 或 6 个 键 码 。 人 允许 根 节 点 包含 1 一 6 个 键 码 ;在 现在 情况 下 , 它 有 2 个 
键 码 。 所 有 的 叶 都 在 级 3 上 。 注 意 ,(a) 键 码 从 左 到 右 以 递增 的 次 序 出 现 ,这 是 对 称 次 序 
概念 的 一 种 自然 的 推广 ;(b) 叶 的 片 数 恰 比 键 码 的 个 数 大 1。 

显然 ,我 们 对 阶 1 或 2 的 日 树 没有 兴趣 ,所 以 仅仅 考虑 m 宇 3 的 情形 。 在 接近 
6.2.3 小 节 末 尾 处 定义 的 2-3 树 等 价 于 阶 3 的 B 树 。(Bayer 和 McCreight 仅 考 虑 
m 是 奇数 的 情况 。 有 些 作 者 把 阶 为 m 的 B 树 当 作 我 们 所 说 的 阶 2m +1 的 B 树 )。 

包含 ;个 键 码 和 ;+1 个 指针 的 一 个 节点 可 以 表示 作 
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Po, Ki,Pi, K2,P2,..., Pi1, Kj,P (1) 


其 中 Ki1< K,<…< Kj;, 且 P; 指向 包含 K; 和 K;;1 之 间 的 键 码 的 子 树 。 因 此 在 一 株 
B 树 中 的 查找 十 分 直截了当 :在 节点 (1) 已 经 进入 内 存 之 后 ,在 键 码 Ki, K,,…,K; 
当中 查找 给 定 的 变 元 ( 当 j 很 大 时 ,大 概 作 一 个 二 分 查找 ;但 当 j 很 小 时 ,顺序 查找 
是 最 好 的 )。 如 果 查 找 成 功 , 则 我 们 已 找到 了 所 着 户 的 键 码 | 但 如 果 由 于 变 元 位 于 
K; 和 KK;+1 之 间 而 使 查找 不 成 功 , 则 取 由 P; 指出 的 节点 ,并 继续 这 个 过 程 。 如 果 变 
元 小 于 Ki1, 则 使 用 指针 Po ,如 果 变 元 大 于 K;, 则 使 用 P;。 如 果 P;= A, 则 查找 是 不 成 
功 的 。 

B 树 的 优点 是 插入 也 十 分 简单 。 例 如 ,考虑 图 30, 每 片 叶 对 应 一 个 新 的 插入 可 
能 发 生 的 位 置 。 人 337 , 则 只 需 把 适当 的 节点 从 


变 成 (2) 


妨 一 方面 ,如 灯 我 们 要 插入 新 的 键 码 071 ,就 没有 空间 了 ,因为 在 级 2 上 的 对 应 节点 
已 经 “ 满 " 了 。 这 种 情况 可 以 通过 把 节点 分 成 两 部 分 来 处 理 , 每 部 分 有 三 个 键 码 ,并 
把 中 间 的 键 码 送 到 级 1 上 : 


变 成 (3) 





一 般 说 来 ,如果 我 们 要 把 一 新 项 目 插入 到 阶 为 m 的 B 树 中 去 , 当 所 有 叶 都 在 级 
1 上 时 , 则 把 新 的 键 码 插 入 到 级 ! -1 的 适当 的 节 扣 上 。 如 果 该 节点 现在 含 m 个 键 
码 ,使 得 它 有 形式 (1), 且 ;= m, 则 把 它 分 成 两 个 节点 


P' 





,i KT m2 —t Pr m/21—! PTmy/21 ,入 [mm/21+1 ETm/21+0 Km, Pm (4) 


并 且 把 键 码 Ki m/2 | 插入 到 原来 节点 的 父 节 点 处 。( 于 是 , 父 节 点 中 的 指针 P 为 序 

列 P,Krij21;P 所 代替 )。 这 个 插入 可 能 引起 父 市 点 包含 m 个 键 码 , 而 且 如 果 这 样 ， 

则 它 应 以 同样 的 方式 分 裂 ( 上 一 小 节 的 图 27 画 出 了 m = 3 的 情况 )。 如 果 我 们 需要 

分 裂 根 节点 , 根 节 点 是 没有 父 节 点 的 , 则 只 需 建 立 包含 单个 键 码 Kr;,js1 的 一 个 新 根 
.452 ， 
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方 点 即 可 ,在 这 种 情况 下 这 株 树 长 高 了 一 级 。 

这 个 插入 步骤 几乎 保持 B 树 的 所 有 性 质 ; 为 了 鉴赏 这 一 思想 的 巧妙 性 ,读者 应 
该 作 习 题 1。 注 意 ,这 株 树 实质 上 从 顶部 增长 ,而 不 是 从 底部 ,因为 仅 当 根 分 裂 时 它 
的 高 度 才 增加 。 

从 BB 树 删 去 ,仅仅 比 插入 稍稍 复杂 一 点 而 已 (见习 题 6)。 


关于 性 能 的 上 限 ”现在 让 我 们 看 看 , 当 对 阶 为 m 的 一 株 B 树 进行 查找 时 ,在 最 
坏 的 情况 下 ,要 访问 多 少 节 点 。 假 设 有 N 个 键 码 ,有 晶 N+1 片 叶 出 现在 1 级 上 , 则 在 
级 1,2,3,… 上 的 节点 数 至 少 是 2,2[ m1/21,2「 /2 怀 ,… ;因此 
N+1i 宕 2 m/21 7! (5) 
换 句 话说 ， 





N+1 
1 <1+ lg (| (6) 


这 意味 着 ,例如 ,如 果 N=1.999,998 有 目 m=199, 则 /至 多 为 3。 由 于 我 们 在 一 次 
查找 期 间 至 多 存 取 / 个 节点 , 故 这 个 公式 保证 了 运行 时 间 十 分 小 。 

当 揪 人 一 个 新 的 键 码 时 ,可 能 需要 分 裂 多 达 7/ 个 节点 。 然 而 ,需要 分 裂 的 节点 
的 平均 数 要 小 得 多 。 因 为 在 整 株 树 被 构造 时 出 现 的 分 裂 总 数 ,恰好 是 树 中 内 部 节点 
总 数 减 :/。 如 果 有 pp 个 内 节点 , 则 至 少 有 1+ (|m/21-1)(p 一 1) 个 键 码 ;因此 


N-1 
pl+tr ii (7) 


由 此 得 出 ,在 构造 一 株 N 个 键 码 的 树 时 ,每 作 一 次 插入 ,我 们 需要 分 裂 一 个 节点 的 
次 数 , 平 均 少 于 1/([ m/21-1)。 


改进 和 变形 ”只 要 稍微 突破 常规 ,就 有 若干 方法 改进 上 面 定 义 的 基本 B 树 结 
构 。 

首先 ,我 们 注意 到 ,在 1 -1 级 节点 中 所 有 指针 都 是 A, 而 其 它 级 中 的 指针 沸 非 
A。 这 通常 表示 大 量 空 间 的 浪费 ,所 以 ,我 们 可 以 通过 消去 所 有 的 A 和 对 所 有 “ 底 ” 
节点 使 用 一 个 不 同 的 mx 值 以 节省 时 间 和 空间 。 使 用 两 个 不 同 的 mx 并 不 搅乱 插入 
算法 ,因为 被 分 裂 的 那个 节点 的 两 半 ,保留 在 和 原来 节点 相同 的 级 上 。 事 实 上 我 们 
可 通过 要 求 在 1 一 & 级 上 的 所 有 非 根 节点 ,都 有 m412 到 mi 个 儿子 ,来 定义 阶 为 
m1;Mm2，Mma，"… 的 一 株 广义 B 树 ; 这 样 一 株 B 树 在 每 级 上 都 有 不 同 的 ,而 插入 算 
法 实质 上 仍 和 从 前 一 样 有 效 。 

为 进一步 贯彻 上 一 段 中 的 这 个 思想 ,我 们 可 以 在 树 的 每 一 级 上 ,使 用 一 个 完全 
不 同 的 节点 格式 ,而 且 我 们 也 可 以 在 叶 中 存储 信息 。 有 时 , 键 码 仅 构成 一 个 文件 中 
记录 的 很 小 部 分 ,在 这 样 的 情况 下 ,在 靠近 树 根 的 分 支 节 点 处 保存 整个 记录 , 乃 是 一 
个 错误 ;这 会 使 m 对 于 有 效 的 多 路 分 支 来 说 太 小 了 。 

我 们 因此 可 以 重新 考虑 图 30, 同 时 想像 文件 的 所 有 记录 现在 都 存在 叶 中 ,而 且 
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只 有 少量 的 键 码 被 拷贝 在 分 支 节 点 中 。 在 这 种 解释 之 下 ,最 左 的 叶 包含 其 键 码 委 
011 的 所 有 的 记录 ;标志 为 A 的 叶 包含 其 键 码 满足 
439 < K 过 449 (8) 

的 所 有 记录 ;等 等 。 在 这 种 解释 之 下 , 叶 节 点 的 增长 和 分 裂 就 如 同 分 支 节 点 那样 ,只 
是 一 个 记录 决 不 会 从 一 片 叶 传 到 下 一 级 去 。 于 是 , 诸 叶 的 容量 至 少 总 是 填 得 半 满 
的 。 每 当 一 片 叶 分 裂 时 ,一 个 新 的 键 码 便 进 入 树 的 非 叶 部 分 。 如 果 每 片 叶 链 接 到 它 
在 对 称 次 序 下 的 后 继 , 则 我 们 就 获得 了 以 有 效 和 方便 的 方式 .既是 顺序 地 、 又 是 随机 
地 来 贺 历 文件 的 能 力 。 这 个 变形 已 经 作为 一 个 B' 树 而 闻名 。 

S.P.Ghosh 和 M.E.SenkoUACM 16 (1969) ,$69 一 579] 的 某 些 计算 提示 ,把 叶 
做 得 相当 大 ,比如 说 大 到 大 约 10 个 连续 的 页 那样 长 ,可 能 是 一 个 好 的 想法 。 通 过 对 
每 片 叶 在 已 知 的 键 码 范围 内 的 线性 内 插 ,我 们 可 以 猜测 哪 10 个 叶 大 概 包 含 一 个 给 
定 的 查找 变 元 。 如 果 猜 测 是 错误 的 ,就 损失 了 时 间 , 但 是 经 验 指 出 ,这 个 损失 比 我 们 
通过 减少 树 的 大 小 所 节省 的 时 间 要 少 。 

T.H.Martin[ 未 发 表 ] 指 出 ,奠定 B 树 的 基础 的 思想 ,也 可 以 用 于 可 变 长 的 键 
码 。 我 们 不 必 对 每 个 节点 的 儿子 设置 [mx/2, nm ] 的 界限 ,代替 的 是 ,我 们 可 以 只 是 说 
每 个 节点 中 应 该 至 少 有 半 满 的 数据 ;尽管 每 个 节点 中 键 码 的 确切 数目 依赖 于 键 码 的 
长 短 ,插入 和 分 开 的 机 制 仍然 工作 得 很 好 。 然 而 ,不 应 该 允许 键 码 过 长 ,否则 它们 可 
能 会 把 事情 弄 槽 (见习 题 5)。 

对 于 基本 B 树 方案 的 另 一 个 重要 的 修改 是 Bayer 和 McCreight 提出 的 溢出 思 
想 。 这 个 思想 尽 可 能 避免 频繁 地 分 裂 节 点 ,而 代 之 以 使 用 一 个 局 部 转动 ,来 改进 插 
人 人 算法。 假设 有 一 个 节点 , 它 由 于 包含 mm 个 键 码 和 m+1 个 指针 而 过 满 了 ;我 们 不 
去 分 裂 它 ,而 是 首先 在 右边 考察 它 的 兄弟 节点 ,这 个 兄弟 节点 比如 说 有 j; 个 键 码 和 ) 
+1 个 指针 。 在 父 节点 中 ,有 一 个 键 码 Kj, 它 按 下 图 分 开 这 两 个 兄弟 的 键 码 


(9) 





如 果 j < m 一 1, 则 一 个 简单 的 重新 排列 就 使 分 裂 成 为 不 必要 的 了 :我们 在 左 节点 中 
保留 L(m + j)/2J 个 键 码 ,在 父 节 点 中 以 Ki; ;yz214+1 来 代 苦 Kj, 并 把 剩 下 的 [m+ 
j)/2 1 个 键 码 (包括 Kj 在 内 ) 以 及 对 应 的 指针 放置 到 右 节 点 中 。 于 是 这 个 满 了 的 节 
尽 就 “流动 "到 它 的 兄弟 节点 处 。 男 一 方面 ,如 果 兄 第 节点 已 经 满 了 (j= m 一 1), 则 
我 们 可 以 把 这 两 个 节点 都 分 裂 为 三 个 节点 , 且 其 中 每 个 约 装 满 三 分 之 二 ,分 别 包含 
L(2m 一 2)/3j\L(2m 一 1)1314 以 及 L2m 13] 个 键 码 : 
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K1(2m+1)/3] | Km-1)/3) 





(10) 


如 果 原 来 的 节点 没有 右 兄 弟 , 则 我 们 实际 上 可 以 同样 的 方式 考虑 它 的 左 兄 弟 。( 如 
采 原 来 的 节点 既 有 右 兄 第 又 有 左 兄 弟 , 则 我 们 甚至 可 以 不 分 裂 出 一 个 新 节点 ,除非 
左 兄 第 和 右 兄 弟 两 者 全 都 是 满 的 )。 最 后 ,如 果 有 待 分 裂 的 原来 的 节点 全 然 没 有 兄 
第 , 则 它 必 然 是 根 ;我们 可 以 改变 B 树 的 定义 ,允许 根 包 含 2L (2m -2)/34 那 么 多 个 
键 码 ,使 得 当 根 分 裂 时 ,产生 每 个 有 [L (2m -2)/3 个 键 码 的 两 个 节点 。 

上 一 段 中 所 有 技术 的 效果 是 产生 一 类 优良 的 树 ,比如 说 , 阶 为 m 的 一 株 B* 树 ， 
可 以 定义 如 下 : 

i) 除了 根 以 外 每 个 节点 至 多 有 m 个 儿子 。 

ii) 每 个 节点 ,除了 根 和 叶 以 外 ,至 少 有 (2m -1)/3 个 儿子 。 

ii) 根 至 少 有 两 个 和 至 多 有 21(2m 一 2)/3j+1 个 儿子 。 

iv) 所 有 的 叶 都 出 现在 同一 级 上 。 

v) 具有 上 个 儿子 的 一 个 非 叶 节点 ,包含 一 1 个 键 码 。 
重要 的 改动 是 条 件 (ii) , 它 断 言 ,我 们 至 少 利用 了 每 个 节点 中 三 分 之 二 的 可 用 空间 。 
这 个 改动 不 仅 更 有 效 地 使 用 了 空间 ,而且 也 使 查找 过 程 加 快 ,因为 在 (6) 和 (7) 中 我 
们 可 以 用 [ (2xm -1)13 1 代替 [ mm /21。 然 而 插 和 人 过 程 就 变 慢 了 ,因为 随 着 节点 变 满 它 
们 要 更 加 注意 ;关于 个 中 涉及 的 折衷 的 分 析 , 请 参见 张 斌 和 许 玖 君 ,Acta Informatica 
26 (1989) ,421--438。 

就 为 一 个 极端 而 言 ,在 一 株 频 繁 变动 的 树 中 使 诸 节 点 变 成 少 于 半 满 则 更 好 , 特 
别 是 如 果 插 入 的 次 数 趋向 于 超过 删 去 的 次 数 时 。 这 种 情况 已 经 由 T.Johnson 和 
D.Shasha 在 J.Comput. Syst Sci 47 (1993),45 一 76 上 做 了 分 析 。 

由 于 在 B 树 中 根 的 次 数 可 以 低 到 2, 也 许 读 者 已 经 发 生 怀 疑 了 :为 什么 我 们 要 
蓄 费 整整 一 次 磁盘 访问 于 仅 仪 一 个 2- 路 判定 上 呢 ?! 一 -个 简单 的 缓冲 方案 , 即 所 谓 
最 近 最 少 使 用 的 页 替换 ,可 以 消除 这 种 反对 意见 ;我 们 可 以 在 内 存 中 保持 若干 个 缓 
冲 区 的 信息 负载 ,使 得 当 对 应 的 叶 已 经 出 现时 可 以 避免 输入 命令 。 在 这 个 方案 中 ， 
查找 或 插入 算法 发 出 “虚拟 的 读 " 命 令 , 仅 当 必 要 的 叶 不 在 内 存 中 时 , 它 才 被 翻译 成 
真正 的 输入 指令 ; 当 这 缓冲 区 已 经 被 读 过 而 且 可 能 已 被 算法 所 修改 时 , 即 发 出 随 继 
的 “释放 "命令 。 当 需要 一 个 真正 的 读 人 时 , 便 选 择 最 早 释 放 的 缓冲 区 ;如 果 该 缓冲 
区 的 内 容 在 它们 被 读 入 以 后 发 生 了 变化 , 则 我 们 写 出 该 缓冲 区 ,然后 就 把 所 希望 的 
页 谈 人 到 这 个 选 定 的 缓冲 区 中 。 

由 于 树 中 的 级 数 相对 于 缓冲 区 数 来 说 一 般 都 较 小 ,这 个 分 页 的 方案 将 确保 根 页 
总 在 内 存 中 ;而 且 如 果 根 只 有 2 个 或 3 个 儿子 , 则 第 一 级 的 页 面 几乎 肯定 地 也 将 驻 
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留 于 内 存 中 。 在 一 次 插入 期 间 ,任何 可 能 需要 被 分 开 的 页 ,都 可 以 在 需要 时 自动 地 
出 现在 内 存 中 ,因为 从 紧 挨 的 此 前 的 查找 会 把 它们 记 住 。 

E.McCreight 的 某 些 经 验 表 明 ,这 个 思想 是 十 分 成 功 的 。 例 如 ,他 发 现 , 对 于 10 
个 缓冲 区 和 =121, 以 递增 次 序 插 入 100 ,000 个 键 码 的 过 程 仅 需要 22 条 实际 的 读 
命令 和 857 条 实际 的 写 命令 ;于 是 ,大 多 数 活动 都 在 内 存 中 进行 。 而 且 这 株 树 仅仅 
包含 835 个 节点 ,只 比 极 小 可 能 的 值 [100000/(m -1)1= 834 大 1; 因此 存储 利用 接 
近 100% 。 对 于 这 个 实验 ,他 使 用 了 洲 出 技术 ,但 如 同 (4) 中 那样 仅 通过 2- 路 市 点 分 
裂 , 而 不 是 像 在 (10) 中 那样 的 3- 路 分 裂 (见习 题 3)。 

在 男 一 个 实验 中 ,再 次 通过 10 个 缓冲 区 和 m=121 以 及 溢出 技术 ,他 以 随机 次 
序 把 5000 个 键 码 插 入 到 初始 为 空 的 一 株 树 中 。 在 作 了 2762 个 实际 的 谈 和 2739 个 
实际 的 写 之 后 , 便 产 生 了 具有 48 个 节点 的 一 株 2 级 树 (87% 的 存储 利用 )。 随 后 的 
1000 个 随机 查找 需要 786 个 实际 的 读 。 在 作 了 2743 个 实际 的 读 和 2800 个 实际 的 
写 之 后 ,没有 溢出 特征 的 同样 实验 ,产生 了 具有 62 个 节点 的 一 株 2 级 树 (67% 的 存 
储 利用 ) ;1000 个 相继 的 随机 查找 需要 836 次 实际 的 读 。 这 不 仅 表 明 分 页 方案 是 有 
效 的 ,而 且 表明 在 判定 分 裂 一 个 节点 之 前 ,局 部 地 处 理 汶 出 是 明智 的 。 

姚 期 智 已 经 证 明 ,对 于 很 大 的 N 和 mx ,在 没有 洲 出 特征 的 随机 插入 之 后 的 平均 
节点 数 将 是 N/(mln 2) + O(N/m“), 所 以 存储 利用 将 近似 为 ln 2 过 69.3%[ Acia 
Lnformatica ,9(1978),159 一 170]。 也 请 参见 B.Eisenbarth、N .Ziviani、G.H.Gonnet、 
K .Mehlhorn, RK D.Wood,Information and Control $5(1982),125~174;R.A.PBaeza 
-Yates,Acta Informatica 26(1989) ,439 一 471 所 做 的 更 详细 的 分 析 。 

在 B 树 被 发 明之 后 ,它们 很 快 就 流行 起 来 。 例 如 ,参见 Douglas Comer 在 
Computing Surveys 11(1979) ,121 一 138,412 上 的 文章 , 它 讨 论 了 早期 的 发 展 并 且 描 
述 了 由 IBM 公司 开发 的 称 为 VSAM(Virtual Storage Access Method ,虚拟 存储 访问 
方法 ) 的 一 个 广泛 使 用 的 系统 。VSAM 的 创新 之 一 是 复制 块 区 到 磁盘 磁道 上 以 极 小 
化 等 待 时 间 。 

不 从 的 是 ,对 基本 B 树 策略 的 两 个 最 有 兴趣 的 发 展 赋予 了 两 个 几乎 相同 的 名 
字 “SB- 树 ”和 “SB- 树 ”。P.E.O’ NeillActa Inf. 29(1992) ,241 一 263] 被 设计 来 通过 
对 邻近 的 记录 分 配 相 同 的 道 或 圆柱 面 , 从 而 在 需要 同时 访问 许多 连续 的 记录 的 应 用 
中 维持 有 效 性 ,来 极 小 化 磁 磁 盘 的 输入 /输出 时 间 ; 在 这 种 情况 下 "SB" 以 斜体 表示 而 
其 中 的 S 表示 “顺序 ”。 而 由 P.Ferragina 和 R.Grossi 提出 的 SB- 树 [STOC 27 
(1995) ,693 一 702 ;SODA 7(1996),373 一 382] 是 B 树 结构 同 我 们 将 在 6.3 节 中 讨论 
的 Patricia 树 的 一 个 优美 组 合 。 在 这 种 情况 下 “SB" 是 以 罗马 体 表示 而 其 中 的 S 表 
示 “ 串 ”。SB- 树 对 于 大 型 文本 处理 有 许多 应 用 ,而 且 它 们 提供 了 在 磁盘 上 对 可 变 长 
的 串 的 有 效 排 序 的 基础 [参见 Arge,Ferragina,Grossi 和 Vitter,STOC 29(1997),540 
一 $48 | 。 
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习 起 


1.L10] 在 把 键 码 613 插入 到 图 30 中 之 后 ,得 到 什么 样 的 阶 为 7 的 B 树 ? (请 勿 用 “溢出 ” 技 
术 。) 

2.L15] 做 习题 1, 但 使 用 溢出 技术 和 如 同 (10) 中 那样 的 3 路 分 裂 。 

> 3.[23] 假如 我 们 以 递增 的 次 序 把 键 码 1,2,3,… 插 入 到 初始 为 空 的 阶 为 101 的 B 树 中 ， 

(a) 当 不 使 用 溢出 时 ， 

(b) 当 使 用 溢出 并 且 如 (4) 那 样 的 仅仅 2 路 的 分 裂 时 ; 

(c) 当 使 用 一 株 阶 为 101 的 B* 树 、 溢 出 以 及 如 同 (10) 中 的 3 路 分 裂 时 , 问 哪 一 个 键 码 首先 引 
人 

4.[21] (Bayer McCreight) 说 明 ,如何 处 理 对 一 株 广 义 的 B 树 的 插入 ,使 得 除根 和 叶 之 外 的 


所 有 节 点 都 保证 至 少 有 了 mm 一 方 个 儿子 。 


5.121] 假设 某 个 节点 表示 1000 个 字符 的 外 存 位 置 。 如 果 每 个 指针 占用 $ 个 字符 , 且 键 码 是 
河 变 长 的 其 长 度 在 5 一 50 个 字符 之 间 , 但 总 是 5 的 倍数 , 则 在 一 次 插入 期 间 ,分 裂 一 个 节点 之 后 ， 
该 节点 中 至 少 有 多 少 字符 位 置 被 占用 ? (只 考虑 类 似 于 正文 中 对 固定 长 的 B 树 所 述 的 那 种 简单 
的 分 裂 过 程 ,而 不 使 用 溢出"; 上 移 使 剩 下 的 两 部 分 最 接近 相等 的 键 码 。) 
6.[23] 试 设 计 忆 树 的 一 个 删 去 算法 。 
7.[28] 试 设计 B 树 的 一 个 连接 算法 (参见 6.2.3 小 节 )。 
8.[LHM37j] 考虑 Muntz 和 Uzgalis 所 建议 的 树 插入 的 推广 ,其 中 每 页 可 保持 M 个 键 码 。 在 把 
NN 个 随机 项 目 插 入 到 这 样 一 株 树 中 ,使 得 它 有 M +1 个 外 节点 之 后 , 设 ?站 是 具有 如 下 性 质 的 一 


次 不 成 功 查 找 的 概率 ,该 查找 需要 & 次 页 访问 ,并 结束 于 一 个 外 节点 ,该 节点 的 父 节 点 属于 一 
包含 j 个 键 码 的 页 ,如果 BN (z)= bx 是 对 应 的 生成 函数 , 试 证 明 , 我 们 有 BO)(z) = 
而 且 














BV’(z) = tT A ) + BN- D(z), 对 于 1< j) < M 
BAW)(z) = _ 并 EE ) + BN (z) 
BUY(z) = 六 二 TB (z) + EIBWV(z) 
二 未 每 次 不 记功 查找 的 平 过 下 这 问 次 上 CN = > BY (1) 的 渐 近 特性 。[ 提 示 :借助 矩阵 
-3 0 … 0 22 
3 -4 … 0 0 
W(z) = , ” ， ， 
0 0 .: JM-1 0 
0 0 M+1 -2 


来 表达 这 个 递 推 式 , 并 把 CN 同 W(1) 中 的 NN 次 多 项 式 联系 起 来 。] 
9.122]B 树 的 思想 能 否 用 来 通过 位 置 而 不 是 通过 键 码 值 来 查找 一 个 线性 表 的 项 (参见 算 
法 6.2.3B)。 


. 457 : 


第 6 章 查找 


10.[35] 试 讨论 如 何 能 把 组 织 成 一 个 B 树 的 大 型 文件 以 下 列 这 样 一 种 方式 ,为 大 量 同 时 的 
用 户 用 作 并 发 访问 和 修改 ,使 不 同 页 的 用 户 彼 此 很 少 相 干扰 。 

Little is known, even for otherwise equivalent algorithms, 

about the optimization of storage allocation, 

minimization of the number of required operations, 

and so on. This area of investigation 

must draw upon tpe most powertul resources 

of both pure and applied mathematics 

for further progress. 

尖 于 序 储 分 配 的 优化 , 尖 于 所 需要 的 碟 作 个 涂 的 极 小 化 ,等 等， 

挫 开 这 些 即 使 是 对 于 就 华 价 的 算法 ,我 们 知之 芯 少 。 为 了 取得 更 大 进步 ， 

这 个 研究 领域 必须 投入 纯 数 学 和 应 用 效 学 两 方面 旧 绰 有 力 的 资源 。 

一 ANTHONY G. OETTINGER (1961) 
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代替 把 一 个 查找 方法 建立 在 键 码 之 间 比 较 的 基础 上 ,我们 可 以 利用 它们 的 数字 
序列 或 字母 字符 序列 的 表示 。 例 如 ,考虑 一 部 大 型 字典 中 的 “ 书 边 标 目 ”; 由 一 个 给 
定 的 字 的 第 一 个 字母 ,我们 可 以 立即 定 出 包含 所 有 以 该 字母 开始 的 字 的 那些 页 的 位 
置 。 

如 果 我 们 推广 书 边 标 目 的 思想 , 则 它 的 逻辑 结论 之 一 就 是 如 表 1 所 说 明 的 以 重 
复 “ 下 标 " 为 基础 的 一 个 查找 方案 。 假 设 我 们 要 检测 一 个 给 定 的 查找 变 元 ,看 它 是 否 
是 英语 中 最 普通 的 31 个 字 之 --( 参 见 6.2.2 小 节 中 的 图 12 和 13), 这 个 数据 在 表 1 
中 被 表示 成 所 谓 的 “trie” (检索 ) 结 构 , 这 个 名 称 是 由 E.Fredkin[LCACM 3 (1960)， 
490 一 500] 提 议 的 ,因为 它 是 信息 检索 (retrieval) 的 一 部 分 。 一 个 检索 结构 实际 上 是 
一 株 M 叉 树 , 它 的 节点 是 M 维 向 量 , 其 分 量 对 应 于 数字 或 字符 ,第 1 级 上 的 每 个 节 
点 表示 所 有 这 样 的 键 码 的 集合 ,它们 以 7 个 字符 的 某 个 序列 开始 ,这 个 序列 称 做 键 
码 的 前 级 ;这 个 节点 根据 第 /+ 1 个 字符 确定 一 个 M 路 分 支 。 

例如 , 表 1 的 检索 结构 有 12 个 节点 ;节点 (1) 是 根 ,我 们 在 这 里 查找 头 一 个 字 
符 。 如 果 第 一 个 字符 是 N, 则 这 张 表 告 诉 我 们 ,我 们 的 字 必 然 是 NOT( 和 否则 它 不 在 表 
中 )。 另 一 方面 ,如 果 第 一 个 字母 是 W, 则 节点 (1) 告 诉 我 们 转 到 节点 (9); 以 同一 方式 
查找 第 二 个 字母 ,节点 (9) 指 出 第 二 个 字母 应 该 是 A、H 或 I。 节 点 (10) 的 前 缀 是 BR。 
空白 条 款 代 表 空 的 链接 。 

表 1 中 节点 向 量 是 按照 MIX 字符 编码 重新 排列 过 的 。 这 意味 着 一 个 检索 结构 
的 查找 将 是 十 分 快 的 ,因为 我 们 仅仅 通过 使 用 我 们 的 键 码 的 字符 作为 下 标 , 来 取出 
一 个 阵列 中 的 字 。 通 过 下 标 进行 快速 多 路 判断 的 技术 , 称 为 “检索” (Table Look- 
At) ,以 示 区 别 于 “ 查 表 ”(Table Look-Up)l 见 P.M.Sherman,CACM 4(1961) ,172 一 
173 ,175 ] 。 
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表 1 31 个 最 普遍 的 英文 字 的 一 个 检索 结构 


DO 9 @ 8 © 0m 8) 9 4 dy (2) 
人 A 














N<xz<cJoFMAOOZZTRCP-TATMINDTPLE 
之 
SO 
吧 
上 
乙 
号 
“ 
加 
2 





人 并 法 T( 检 索 结构 查找 ) ”给 定 一 个 形成 M 义 检 索 结 构 的 记录 表 , 本 算法 查找 
给 定 的 变 元 K。 这 个 检索 结构 的 节点 ,都 是 其 下 标 从 0 变 到 M -1 的 向 量 ;这 
二 有 是 的 得 二 分 量 或 者 是 一 个 键 码 或 者 是 一 个 链接 (可 能 是 空 的 )。 
T1.[ 初 始 化 ] 置 链接 变量 P, 使 得 它 指 同 检索 结构 的 根 。 
T2. [分 支 ] 置 & 为 输入 变 元 K 人 个 字符 (如 果 这 个 变 元 已 经 
， 完全 扫 描 过 了 , 则 置 & 为 一 个 “空白 "或 字 结 束 符号 。 字 符 应 该 表示 为 在 范 
围 0 三 k< M 中 的 数 )。 设 x 为 NODE(P) 中 编号 为 的 表 项 目 。 如 果 久 是 
一 个 链接 , 则 转 到 T3; 但 如 果 X 是 一 个 键 码 , 则 转 到 T4。 
T3.[ 前 进 ] 如 果 双关 A, 则 置 P<-X 并 返回 步骤 T2; 和 否则 算法 以 失败 告终 。 
T4.[ 比 较 ] 如 果 X= 天 , 则 算法 成 功 地 结束 ,否则 它 以 失败 告终 。 | 
注意 ,如果 这 个 查找 是 不 成 功 的 , 则 已 经 找到 了 最 长 的 匹配 。 这 个 性 质 在 应 用 
上 有 时 是 有 用 的 。 
为 了 比较 这 个 算法 和 这 一 章 中 其 它 算法 的 速度 ,我 们 可 以 写 出 一 个 短 的 MIX 程 
序 ,同时 假定 字符 都 是 字 节 而 且 键 码 的 长 度 至 多 是 五 个 字 节 。 
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程序 TT (检索 结构 的 查找 ) 这 个 程序 假定 所 有 键 码 都 表示 成 一 个 MIX 字 , 当 键 
码 少 于 五 个 字符 时 ,空白 字符 在 右边 。 由 于 我 们 使 用 MIX 字符 代码 ,因此 假定 查找 
变 元 的 每 个 字 节 都 包含 小 于 30 的 一 个 数 。 链 接 被 表示 作 一 个 节点 字 的 0:2 字段 中 
的 一 个 负数 。rIl 三 P,rX 三 K 的 未 扫描 部 分 。 





01 START LDX K 1 Ti. 初始 化 

02 ENT1 ROOT 1 ”P< 指 问 检索 结构 的 根 的 指针 

03 ”2H SLAX 1 C 7T2. 分 支 

04 STA x +1(2:2)  C 摘出 下 一 个 字符 

05 ENT2 0,1 C Q<P+k 

06 LD1N 0,2(0:2) C P<LINK(O) 

07 JIP 2B C 7T3. 朋友。 如 果 P 是 一 个 关 A 
的 链接 则 转 到 T2 

08 LDA 0,2 1 174. 比较 。rA<KEY(Q) 

09 CMPA K 

10 JE SUCCESS 1 ”如 果 rA=, 则 成 功 地 转 出 

11 FAILURE EQU x 如 果 不 在 检索 结构 中 则 转 出 | 


这 个 程序 的 运行 时 间 是 8C + 8 个 单位 ,其 中 C 是 考察 的 字符 数 。 由 于 C 委 3 , 故 这 
个 查找 决 不 花费 多 于 48 个 时 间 单 位 。 

如 果 我 们 现在 要 比较 这 个 程序 (使 用 表 1 的 检索 结构 ) 同 程序 6.2.2T( 使 用 图 
13 的 最 优 二 分 查找 树 ) 的 效率 , 则 可 以 作 如 下 的 观察 。 

1. 检索 结构 花费 更 多 得 多 的 内 存 空间 ;仅仅 为 了 表示 31 个 键 码 ,我们 就 使 用 
了 360 个 字 , 而 二 分 查找 树 只 使 用 62 个 内 存 字 。( 然 而 ,习题 4 表明 ,通过 省 去 某 些 
无 用 的 位 置 ,实际 上 可 以 把 表 1 的 检索 结构 放 在 仅仅 49 个 字 中 。) 

2. 对 两 个 程序 来 说 ,每 次 成 功 的 查找 都 花费 26 个 时 间 单 位 。 但 是 一 次 不 成 功 
的 查找 在 检索 结构 中 将 进行 得 更 快 些 ,而 在 二 分 查找 树 中 则 要 慢 些 。 对 于 这 个 数据 
来 说 查找 的 不 成 功 次 数 多 于 成 功 的 次 数 , 所 以 从 速度 观点 看 ,检索 结构 是 更 可 取 的 。 

3. 如 果 我 们 应 用 的 对 象 是 图 15 的 KWIC 索引 而 不 是 31 个 最 普通 的 英文 字 ， 
则 由 于 这 个 数据 的 特性 ,检索 结构 就 失去 它 的 优越 性 了 。 例 如 ,一 个 检索 结构 为 了 
区 别 COMPUTATION 和 COMPUTATIONS 竟 需 要 作 12 次 迭代 。 这 种 情况 下 , 若 把 检索 结 
构 构 造成 从 右 到 左 扫描 字 , 而 不 是 从 左 到 右 , 则 更 好 些 。 

表示 一 族 串 的 检索 结构 的 抽象 概念 是 由 Axel Thue 在 不 包含 相 邻 重复 子 串 的 
一 篇 论文 [Skrifter udgivne af Videnskabs - Selskabet i Christiania, Mathematisk - 
Naturvidenskabelig Klasse (1912) No.1, 重 新 印刷 在 Thue 的 Selected Mathematical 
Papers (Oslo: Universitetsforlaget,1977) ,413 一 477] 中 引进 的 。 

用 于 计算 机 查找 的 检索 结构 的 存储 的 思想 ,首先 由 Rene. de.1a Braindais 推荐 的 
[Proc. Western Joint Computer Conf. 1$(1959) ,29$ 一 298j]。 他 指出 ,如 果 我 们 对 每 
个 节点 向 量 都 使 用 一 个 链接 表 , 则 可 以 以 运行 时 间 为 代价 来 节省 内 存 空间 ,因为 大 
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多 数 向 量 的 元 素 趋向 于 空 。 实 质 上 ,这 个 思想 在 于 通过 图 31 中 所 示 的 森林 来 代替 
表 1 的 检索 结构 。 在 这 样 一 个 森林 中 ,查找 是 通过 如 下 方式 进行 的 :首先 找到 与 第 
一 个 字符 匹配 的 根 ,然后 找到 与 第 二 个 字符 匹配 的 该 根 的 子 根 ,等 等 。 

在 这 篇 论文 中 ,de la Briandais 并 不 完全 像 表 1 或 图 31 中 所 示 的 那样 停止 树 的 
分 又 ;而 是 继续 一 个 字符 挨 一 个 字符 地 表示 每 个 键 码 ,直到 达到 字 结 束 的 限定 符 为 
止 。 于 是 ,他 实际 上 使 用 了 


(1) 





来 代替 图 31 中 的 “H" 树 。 这 个 表示 要 求 更 多 的 存储 ,但 是 它 使 得 可 变 长 数据 的 处 理 
特别 容易 。 如 果 我 们 对 每 个 字符 使 用 两 个 链接 字段 , 则 动态 插入 和 删 去 即 可 以 用 一 
种 简单 的 方式 来 处 理 。 

如 采 我 们 使 用 通常 的 方法 把 树 表 示 作 二 叉 树 , 则 (1) 就 变 成 二 又 树 ( 在 图 31 的 完 
全 酚 林 表示 中 ,我 们 也 应 有 一 个 从 日 向 右 引 到 其 邻近 根 工 的 一 个 指针 )。 在 这 株 二 又 
树 中 ,查找 如 下 进行 :把 变 元 中 的 一 个 字符 同 树 中 的 字符 加 以 比较 , 沿 着 诸 RLINK 直到 
找到 一 个 匹配 为 上 ;然后 取 LLINK 并 以 同一 方式 来 处 理 变 元 的 下 一 个 字符 。 


(2) 





对 于 这 梓 一 株 二 叉 树 ,我 们 或 多 或 少 地 通过 比较 法 进行 查找 ,用 相等 -不 相等 的 分 支 
代替 了 小 于 -大 于 的 分 支 。6.2.1 小 节 的 基础 理论 告诉 我 们 ,为 了 区 别 N 个 键 码 ,平均 说 
来 ,必须 至 少 作 lg N 次 比较 ; 当 查 找 像 图 31 那样 的 一 株 树 时 ,所作 的 平均 查找 次 数 ,至 少 
必须 同 使 用 6.2 节 的 技术 进行 一 次 二 分 查找 时 所 作 的 平均 检验 次 数 一 般 多 。 

万 一 方面 , 表 1 中 的 检索 结构 一 次 就 能 进行 整个 M 路 分 支 ;我 们 将 看 到 ,如 果 
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输入 数据 是 随机 的 , 则 对 于 很 大 的 NN 的 平均 查找 时 间 ,大 约 只 要 
logwN = lg N/lg M 

次 欠 代 。 我 们 还 将 看 到 ,类 似 算法 工 中 的 一 个 “纯粹 "检索 结构 方案 ,需要 总 数 约 NI| 
In N 个 节点 对 NN 个 随机 输入 进行 区 别 ; 因 此 总 共 的 空间 数量 同 MN/ln M 成 正比 。 

从 这 些 考虑 显然 可 看 出 ,检索 结构 的 思想 仅 在 树 的 涉 几 级 中 有 益 。 把 两 种 策略 
混合 使 用 , 即 对 头 一 些 字符 使 用 检索 结构 ,而 后 又 转 到 某 种 其 它 的 技术 上 ,我 们 可 以 
获得 更 好 的 性 能 。 例 如 ,E.H.Sussenguth,Jr[CACM 6(1963),272 一 279] 曾 提议 把 
逐个 字符 的 方案 一 直 用 到 树 的 那样 的 部 分 ,其 中 ,比如 说 ,文件 中 的 键 码 至 多 是 六 
个 ,然后 ,我们 就 能 顺序 地 扫 视 剩 下 的 键 码 的 短 表 。 我 们 将 看 到 ,这 个 混合 策略 能 减 
少 约 六 分 之 一 的 检索 结构 节点 数 ,而 运行 时 间 并 没有 很 大 的 变化 。S.Y. Berkovich 
在 Doklady Akademii Nauk SSSR 202(1972 ) ,298 一 299[ 英 译 :Soviet Physics-Doklady 
17 (1972),20 一 21j] 中 提出 一 个 有 趣 的 方法 ,该 方法 用 于 存储 在 外 存 中 不 断 增长 的 
大 的 检索 结构 。 

T.N.TurbaLCACM 25(1982) ,$22 一 526] 指 出 ,有 时 ,通过 对 于 每 个 不 同 的 长 度 
都 有 一 株 查 找 树 或 检索 结构 ,来 对 可 变 长 的 键 码 进行 查找 ,是 最 方便 的 。 


二 进 的 情形 ”现在 考虑 M =2 的 特殊 情况 ,在 这 种 情况 下 ,我们 每 次 扫描 查找 
变 元 的 一 个 二 进位 。 已 经 提出 了 两 种 有 趣 的 方法 ,它们 特别 适合 于 这 一 情况 。 

第 一 种 方法 ,我们 将 称 之 为 数字 树 查 找 , 它 是 由 E.G.Coffman 和 J.Eve[CACM 
13(1970),427 一 432,436] 给 出 的 。 这 个 思想 同 6.2.2 小 节 树 查找 算法 中 所 做 的 完 
全 一 样 ,在 该 节点 中 存储 全 键 码 ,但 使 用 该 变 元 的 二 进位 (而 不 是 用 比较 的 结果 ) 来 
支配 在 每 步 中 是 取 左 分 支 还 是 取 右 分 支 。 图 32 表示 , 当 我 们 以 递减 频率 的 次 序 插 
入 31 个 最 帝 用 英文 字 时 ,用 这 种 方法 所 构成 的 树 。 为 了 给 这 个 图 提供 二 进 数据 , 先 
把 这 些 字 表达 成 MIX 的 字符 代码 ,然后 再 把 字符 代码 转换 成 每 个 字 节 5 个 二 进位 的 
二 进 数 。 例 如 , 字 WHICH 表示 为 “11010 01000 01001 00011 01000”。 

为 了 在 图 32 中 查找 WHICH 这 个 字 ,我 们 首先 把 它 同 该 树 根 处 的 THE 进行 比较 。 
因为 没有 匹配 , 且 WHICH 的 第 一 个 二 进位 是 1, 我 们 向 右 移 而 同 OF 作 比 较 。 因 为 还 
不 匹配 , 且 因 WHICH 的 第 二 个 二 进位 是 1 ,我 们 向 右 移 , 而 同 WITH 进行 比较 ,等 等 。 
在 一 个 数字 查找 树 中 键 码 的 字母 顺序 不 再 对 应 于 节点 的 对 称 顺 序 。 

把 图 32 和 6.2.2 小 节 中 的 图 12 作 一 对 照 是 有 趣 的 ,因为 后 一 株 树 是 以 同一 方 
式 形 成 的 ,但 是 用 比较 而 不 是 用 用 于 转移 的 键 码 二 进位 形成 的 。 如 果 我 们 考虑 给 定 
的 频率 , 则 图 32 的 数字 查找 树 要 求 对 每 次 成 功 的 查找 平均 进行 3.42 次 比较 ;这 比 
图 12 所 需要 的 4.04 次 比较 稍微 好 些 ,尽管 每 次 比较 花费 的 时 间 可 能 不 同 。 


算法 D (数字 树 查找 ) 给 定 一 个 记录 表 , 它 形成 如 上 所 述 的 一 株 二 叉 树 。 本 算 
法 查找 给 定 的 变 元 K。 如 果 天 不 在 表 中 , 则 把 包含 有 K 的 新 节点 插入 这 株 树 的 适 
当 位 置 中 。 
本 算法 假定 ,这 株 树 是 非 空 的 且 其 节点 如 算法 6.2.2T 中 那样 ,有 KEY、LLINK 和 
RLINK 字段 。 事 实 上 ,读者 可 以 验证 ,这 两 个 算法 几乎 是 相同 的 。 
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图 32 ”对 于 以 递减 频率 次 序 插入 的 31 个 最 常用 英语 单字 的 一 株数 字 查 找 树 


D1.[ 初 始 化 ] 置 P<-ROOT, 日 K'<_-K。 

D2. | 比较] 如果 K = KEY(P), 则 这 个 查找 成 功 地 结束 。 否 则 置 5 为 K 的 第 一 
个 二 进位 ,并且 把 KK' 左 移 一 位 (由 此 删 去 该 二 进位 并 在 右边 引入 一 个 0)。 
如 果 =0, 则 转 到 D3 ,否则 转 到 D4。 

D3. [ 左 移 ] 如 果 LLINK(P) 关 A, 则 置 P<-LLINK(P) 并 转 回 到 D2 ,否则 转 到 D5。 

D4.| 右 移 ] 如 果 RLINK(P) 关 A, 则 置 P<-RLINK(P) 并 转 回 到 D2。 

DS. [插入 树 中 1] 置 QAVAIL ,KEY(Q0)<-K ,LLINK(Q)<-RLINK(0)<-A。 如 果 65= 
0 则 置 LLINK(P)<Q ,否则 置 RLINK(P)<0o。 | 


尽管 算法 6.2.2T 的 树 查 找 本 质 上 是 二 进 的 ,但 不 难看 出 ,现在 的 算法 可 以 被 扩 
充 成 对 任何 M 之 2 的 一 个 M 叉 数字 查找 (见习 题 13)。 

Donald R. MorrisonLJACM 15(1968),514 一 534 | 已 经 发 现 一 个 非常 好 的 方法 形 
成 以 键 码 的 二 进 表 示 为 基础 的 N 节点 查找 树 , 而 无 需 在 节点 中 存储 键 码 。 他 的 方 
法 , 称 为 帕 特 里 西 亚 (“Patricia”) (是 Practical Algorithm To Retrieve Information 
Coded In Alphanumeric 字 头 拼写 成 的 )@, 特 别 适合 于 处 理 极其 长 的 、 可 变 长 的 键 码 ， 
例如 存储 在 一 个 大 型 文件 中 的 标题 或 短 句 。 

Patricia 的 基本 思想 是 要 构造 一 个 二 进 的 检索 结构 ,但 在 每 个 节点 中 都 包含 了 
在 作 下 一 个 检验 之 前 可 以 跳 过 的 二 进位 的 位 数 , 以 避免 单 路 分 支 。 有 若干 方法 来 说 
明 这 一 思想 ;也 许 最 便于 说 明 的 如 图 33 中 所 示 。 我 们 有 一 个 二 进位 的 TEXT 阵列 ， 
它 通 常 都 十 分 元 长 ; 它 可 以 作为 一 个 外 部 直接 存 取 文件 存储 ,因为 每 次 查找 仅 访 问 
TEXT 一 次 。 有 待 存 人 我 们 表 中 的 每 个 键 码 ,都 由 文本 中 的 一 个 开始 位 置 确定 ,并且 


@” 意 指 检索 按 字母 数字 编码 的 信息 的 实用 算法 。 一 一 译 者 注 
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总 可 把 它 想 像 成 要 由 这 个 开始 位 置 起 直至 达到 文本 的 末尾 为 止 (Patricia 不 查找 键 
码 和 变 元 之 间 的 严格 相等 性 ,而 是 来 确定 是 否 存 在 以 该 变 元 开始 的 一 个 键 )。 

图 33 中 所 描述 的 情况 包含 7 个 键 码 ,在 每 个 字 处 都 开始 一 个 键 码 , 即 “THIS IS 
THE HOUSE THAT JACK BUILT?”( 这 是 杰克 建造 的 房子 ?) 以 及 “IS THE HOUSE THAT JACK 
BUILT?”( 是 杰克 建筑 的 房子 吗 ?) 以 及 .…… 以 及 “BUILT?”( 建 造 ?)。 有 一 个 重要 的 限 
制 , 即 没 有 任何 一 个 键 码 可 以 是 另 一 个 键 码 的 前 组 ;如果 我 们 以 一 个 在 别处 都 不 出 
现 的 惟一 的 文本 结束 代码 (在 现在 情况 下 是 “7?”) ,来 结束 文本 , 则 这 个 限制 即 可 满 
足 。 同 样 的 限制 也 隐 含 在 算法 工 的 检索 结构 中 ,在 那里 “ULD "是 结束 代码 。 
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图 33 ” Patricia 树 和 TEXT 的 一 个 示例 


Patricia 用 以 查找 的 这 株 树 ,应当 包 含 在 随机 存 取 存储 器 中 ,或 被 安排 在 6.2.4 

小 节 所 建议 的 一 些 页 上 。 它 由 一 个 表 头 和 N -1 个 节点 所 组 成 ,这 些 节 点 都 包含 若 

干 个 字段 : 

KEY ,指向 文本 的 一 个 指针 。 如 果 文 本 含 C 个 字符 , 则 这 个 字段 的 长 度 必须 至 

少 有 lg C 个 二 进位 。 在 图 33 中 ， 每 个 节点 内 扬 示 的 字 ， 实际 上 都 可 由 指向 

文本 的 指针 来 表示 ;例如 ,该 节点 不 是 包含 “(JACK)” ,而 将 包含 数 24( 它 指 
出 在 文本 串 中 “JACK BUILT 的 开始 位 置 )。 

LLINK 和 RLINK ,在 树 内 的 指针 。 这 些 字 段 的 长 度 至 少 必须 是 lg N 个 二 进位 。 

LTAG 和 RTAG, 两 个 单 二 进位 的 字段 ,它们 分 别 表示 LLINK 和 RLINK 是 指向 这 个 

节点 的 儿子 还 是 祖宗 的 指针 。 图 33 中 的 虚线 对 应 于 其 TAG 二 进位 为 1 的 

指针 。 
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SKIP, 如 下 所 述 , 它 是 一 个 数 ,说 明 当 查找 时 应 跳 过 多 少 二 进位 。 这 个 字段 应 该 
足够 大 ,使 得 对 于 作为 至 少 两 个 不 同 键 码 的 一 个 前 组 的 某 个 串 c, 具 有 前 
级 o 的 所 有 键 码 在 紧 接 着 o 之 后 的 下 到 个 二 进位 相 一致 。 实 际 上 ,我们 
通常 可 以 假定 不 太 大 ,如 果 它 超过 了 SKIP 字段 的 大 小 , 则 可 给 出 一 个 
错误 指示 。SKIP 字段 在 图 33 中 表示 为 每 个 节点 内 的 数 。 
表 头 仅 含 KEY、LLINK 和 LTAG 字段 。 
在 Patricia 树 中 的 查找 是 如 下 进行 的 :假设 我 们 正在 查找 字 THE( 二 进位 的 型 式 
为 10111 01000 00101) 。 我 们 从 寻找 根 节点 a 的 SKIP 字段 开始 , 它 告诉 我 们 检查 这 
个 变 元 的 涉 一 个 二 进位 。 该 位 是 1, 所 以 向 右 移 。 下 一 个 市 点 7 的 SKIP 字段 告诉 我 
们 寻找 这 个 变 元 的 第 1+11= 12 位 。 该 位 为 0, 所 以 左 移 。 下 一 个 市 点 < 的 SKIP 字 
段 告诉 我 们 寻找 第 (12+1) 位 ,该 位 是 1; 现 在 找到 RIAG=1, 所 以 回 到 市 点 7Y, 它 让 我 
们 参考 TEXT。 我 们 所 走 过 的 查找 通路 将 对 其 二 进位 型 式 是 1XXXX xxxxx 
x01… 的 任何 变 元 出 现 , 因 此 必须 检验 ,看 看 它 是 否 匹 配 以 该 型 式 开 始 的 惟一 键 码 
即 THE 。 
另 一 方面 ,假设 我 们 寻找 一 个 或 所 有 以 TH 开始 的 键 码 。 这 个 查找 过 程 同 上 面 
所 述 的 过 程 一 样 开始 ,但 它 最 后 试图 查找 10 位 变 元 的 (不 存在 的 ) 第 12 位 。 这 时 ， 
我 们 在 当前 节点 所 确定 的 点 处 (在 现在 情况 下 为 节点 7Y) ,把 变 元 同 TEXT 作 比 较 。 如 
果 它 不 匹配 , 则 此 变 元 就 不 是 任何 键 码 的 开头 ;但 如 果 它 匹配 了 , 则 此 变 元 就 是 每 一 
个 由 节点 Y 和 其 后 背 中 的 虚线 所 表示 的 键 码 ( 即 THIS ,THAT ,THE) 的 开头 。 
这 个 过 程 可 以 更 精确 地 叙述 如 下 。 


算法 P(Patricia) ”给 定 一 个 TEXT 阵列 和 一 株 具 有 如 上 所 述 KEY、LLINK、RLINK、 
LTAG、RTAG 以 及 SKIP 字段 的 树 ,本 算法 确定 在 这 个 TEXT 中 是 否 有 一 个 以 特定 变 元 
K 开始 的 键 码 。( 如 果 对 于 r 宇 1, 存 在 r 个 这 样 的 键 码 , 则 随后 有 可 能 在 O(r) 步 
内 来 确定 所 有 它们 的 位 置 ; 见 习题 14。) 我 们 假定 至 少 存 在 一 个 这 样 的 键 码 。 
P1. [初始 化 ] 置 P<HEAD 和 ;<-0。( 变 量 P 是 一 个 沿 此 树 下 移 的 指针 ,而 ;是 
一 个 计数 器 , 它 将 标记 变 元 的 二 进位 的 位 置 )。 置 2 和 二 K 中 二 进位 的 个 数 。 
P2.[ 左 移 ] 置 Q<P 和 P<-LLINK(Q)。 如 果 LTRAG(Q) =1, 则 转 到 P6。 
P3.[ 跳 过 二 进位 ] (这 时 我 们 知道 ,如 果 天 的 前 7 个 二 进位 同 无 论 哪 一 个 键 码 
匹配 , 则 它们 都 同 在 KEY(P) 处 开始 的 键 码 匹配 。) 置 7)<7) + SKIP(P)。 如 果 
7 >7, 转 到 P6。 
P4. [检验 二 进位 ] (这 时 我 们 知道 ,如 果 K 的 前 ;一 1 个 二 进位 同 无 论 哪 一 个 
键 码 匹配 ,它们 都 同 在 KEY(P) 处 开始 的 键 码 匹配 。) 如 果 KK 的 第 j 个 二 进位 
为 0, 则 转 到 P2 ,否则 转 到 PS。 
PSs.[ 右 移 ] 置 0<-P 和 P<-RLINK(Q)。 如 果 RTAG(Q)==0, 则 转 到 P3。 
P6. [比较 ] (这 时 我 们 知道 ,如果 天 同 任何 一 个 键 码 匹配 , 它 都 同 在 KEY(P) 处 
开始 的 键 码 匹配 。)K 同 TEXT 阵列 中 位 于 KEY(P) 处 开始 的 键 码 作 比 较 。 如 
果 它 们 相等 (直到 n 位 , 即 KK 的 长 度 为 止 ), 则 这 个 算法 成 功 地 结束 ;如 果 
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不 相等 , 则 它 以 失败 告终 。 | 


习题 15 说 明了 首先 可 以 怎样 来 构造 Patricia 树 。 我 们 也 可 以 把 新 的 内 容 加 到 
文本 中 和 插入 新 的 键 码 , 只 要 新 的 文本 材料 总 是 以 惟一 的 限定 符 ( 例 如 ,一 个 文本 结 
束 符号 后 面 接 一 个 序列 号 ) 结 尾 即 可 。 

Patricia 有 一 点 技巧 ,而 只 有 仔细 地 阅读 ,才能 揭示 它 的 所 有 美妙 之 处 。 


算法 的 分 析 在 结束 本 节 之 前 ,让 我 们 对 检索 结构 、 数 字 查 找 树 以 及 Patricia 进 
行 一 番 数 学 研究 。 这 些 分 析 的 主要 结果 在 最 后 综述 。 

我 们 首先 考虑 二 叉 检 索 结 构 的 情况 , 即 M =2 的 检索 结构 的 情况 。 图 34 表示 ， 
当 第 5 章 排 序 例子 的 十 六 个 键 码 被 处 理 作 10 位 的 二 进 数 时 ,所 形成 的 二 进 检索 结 
构 [ 这 些 键 码 均 以 八进制 记 法 示 出 ,例如 1144 表示 10 位 数 612 = (1001100100),|]。 
如 同 在 算法 工 中 那样 ,我 们 使 用 检索 结构 来 存储 键 码 的 前 导 二 进位 的 信息 ,直到 达 
到 了 键 码 被 惟一 确定 的 第 一 个 位 置 为 止 ; 然 后 此 键 码 被 全 部 重新 记录 。 


0075 
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图 34 一 个 随机 二 叉 检 索 结 构 的 例子 


如 果 把 图 34 同 表 5.2.2-3 进行 比较 , 便 可 显示 出 检索 结构 存储 同 基数 交换 排 
序 之 间 的 令 人 惊异 的 关系 (再 又 ,这 个 关系 也 许 是 很 显然 的 )。 图 34 的 22 个 节点 精 
确 地 对 应 于 表 5.2.2-3 中 的 22 个 分 划 阶 段 , 而 且 在 前 根 次 序 下 的 第 p 个 节点 对 应 
于 阶段 p»。 在 一 个 分 划 阶 段 中 二 进位 的 检索 数 , 等 于 在 对 应 的 节点 和 其 子 检索 结构 
内 的 键 码 的 个 数 ; 因 此 ,我 们 可 以 叙述 下 列 结 果 。 


定理 T 如 朵 按 如 上 所 述 把 和 N 个 不 同 的 二 进 数 放 和 加 到 一 个 二 进 检 索 结 构 中 , 则 
(i) 这 个 栓 壳 结构 的 节点 数 就 等 于 把 这 些 数 按 基 数 交 找 排序 所 需要 的 分 划 阶 段 数 ，; 
以 及 (i 借助 于 算 潜 检索 一 个 键 码 所 需要 的 二 进位 探查 的 平均 次 数 , 等 于 1/N 死 
以 按 交 换 排 序 所 需要 的 二 进位 探查 数 。 | 


由 于 这 个 定理 ,我 们 可 以 利用 在 5.2.2 小 节 中 为 进行 基数 交换 而 研制 的 全 部 数 
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学 机 器 。 例 如 ,如果 假 定 ,我 们 的 键 码 是 在 0 一 1 之 间 一 致 分 布 的 无 限 精度 的 随机 实 
数 , 那 么 ,为 进行 检索 所 需要 的 二 进位 探查 数 将 是 lg N+ Ylln2+1/2+ 6(N)+ 
O(N ), 而 检索 结构 的 节点 数 将 是 N/lIn 2+ N 6(N)+ O(1)。 这 里 ,8(N) 和 
S(N) 是 可 以 忽略 的 复杂 函数 ,因为 它们 的 值 总 小 于 10-5( 见 习题 5.2.2-38 和 
5.2.2-48)。 

当然 ,还 有 更 多 的 工作 犹 待 完成 ,因为 需要 把 二 进 检索 结构 推广 到 M 进 检索 结 
构 。 我 们 在 这 里 只 描述 研究 的 起 点 ,而 把 有 益 的 细节 留 作 习题 。 

设 AN 是 在 包含 N 个 键 码 的 随机 M 进 检索 结构 中 的 平均 内 节点 数 。 于 是 Al 
=A4Ai=0, 且 对 于 N 之 2, 我 们 有 


! 


NI! _ 
ANn=1+ Elk "as, + "十 A ) (3) 


因为 N! M/k! …kv1 是 | 个 键 码 在 第 一 个 子 检 索 结 构 中 ,… ,kw 个 键 码 在 第 

M 个子 检索 结构 中 的 概率 。 利 用 对 称 性 然后 对 &,,… ,kw 求 和 ,这 个 等 式 可 改写 成 
? 

AN =1+ MEN ET ja = 


1+ MND )(M -DY 对 于 六 之 2 (4) 


类 似 地 ,如 果 Cw 表示 为 找 出 检索 结构 中 所 有 N 个 键 码 所 需要 的 二 进位 探查 的 平均 
总 和 数 , 则 我 们 发 现 Co= C=0 且 


CN = N+ M'™"5(» J(M -1)”“C 对 于 N 宇 2 (5) 


习题 17 说 明了 怎样 处 理 这 种 类 型 的 一 般 递 推 式 ,而 习题 18-25 给 出 了 对 应 的 随机 
检索 结构 的 理论 [对 于 AN 的 分 析 ,首先 是 由 工 .R.Johnson 和 M.H.McAndrew 联系 
到 一 个 等 价 的 面向 硬件 的 排序 算法 时 从 另 一 种 观点 解决 的 , 见 TBM J.Res. and 
Devel. 8(1964) ,189 一 193 ] 。 

如 果 我 们 现在 回 到 数字 查找 树 的 研究 上 , 则 会 发 现 这 些 公 式 都 是 类 似 的 ,但 又 
有 足够 的 不 同 , 即 是 ,不 容易 看 出 怎样 导出 渐 近 特性 来 。 例 如 ,如果 CN 表示 当 在 一 
株 二 又 数 字 查 找 树 中 , 找 出 全 部 N 个 键 码 时 所 作 的 二 进位 探查 的 平均 总 数 , 则 和 上 
面 一 样 ,不 难 导 出 Co= Ci=0, 且 


CN = N+ MN MD 民 对 于 N 宇 0 (6) 


这 几乎 和 等 式 (5) 相 同 ;但 是 在 这 个 等 式 左 边 出 现 N+1 而 不 是 N ,这 足以 改变 递 推 
式 的 整个 特征 ,因此 我 们 用 来 研究 (5) 的 诸 方 法 都 不 能 用 了 。 
现在 让 我 们 首先 考虑 二 进 制 的 情况 。 图 35 示 出 , 当 已 按 第 $ 章 的 例子 所 用 的 
次 序 插入 16 个 示例 性 的 键 码 时 ,对 应 于 图 34 的 数字 查找 树 。 如 果 我 们 要 确定 在 一 
次 成 功 的 随机 查找 中 所 作 的 二 进位 探查 平均 次 数 , 则 它 恰巧 是 这 株 树 的 内 部 路 径 长 
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度 除 以 N ,因为 我 们 需要 /1 个 二 进 的 探查 来 找 出 级 ! 上 的 一 个 节点 。 然 而 ,要 注意 
的 是 ,在 一 次 不 成 功 的 随机 查找 中 所 作 的 二 进位 探查 的 平均 次 数 ,并 非 简 单 地 同 这 
株 树 的 外 部 路 径 长 度 相关 ,因为 不 成 功 的 查找 更 可 能 出 现在 靠近 根 的 外 部 节操 处 ; 


于 是 ,达到 图 35 中 节点 0075 的 左 子 分 支 的 概率 是 厨 ( 假 定 是 无 限 精 确 度 的 键 码 )， 


而 过 到 节点 0232 的 左 子 分 支 的 概率 仅 为 节 。 由 于 这 个 原因 , 当 诸 键 码 一 臻 分 布 时 ， 
数字 查找 树 一 般 来 说 比 算法 6.2.2T 的 二 分 查找 树 能 更 好 地 维持 平衡 。 
(0767) 


图 35 由 算法 D 构造 的 一 株 随 机 数字 查找 树 

我 们 可 以 用 生产 函数 描写 一 个 数字 查找 树 的 有 关 特 征 。 如 果 在 级 ! 上 有 a 个 

内 节点 , 则 考虑 生成 函数 a(z) = 如 Jaiz; 例 如 ,对 应 于 图 35 的 生成 函数 为 a(z) =1 

+2z+4z2+Sz3+4z4。 如 果 在 级 ! 上 有 6 个 外 节点 , 且 如 果 5(z)= ,bz , 则 由 
习题 6.2.1-25 有 

b(z)=1+(2z—1)a(z) (7) 

例如 ,1+(2z 一 1)(1+2z+4z?+5z3+4z4)=3z +6z +8x 。 在 一 次 随机 的 成 功 

查找 中 ,所 作 的 二 进位 探查 的 平均 次 数 是 a (1)/a (1) ,因为 a’(1) 是 树 的 内 部 路 径 

长 度 ,而 a(1) 是 内 节点 数 。 在 一 次 随机 的 不 成 功 的 查找 中 ,所 作 的 二 进位 探查 的 平 

均 次 数 是 L512!'= 方 b( 序 =4| 广 ) ,因为 我 们 是 以 2 的 概率 在 级 1 上 的 一 个 

给 定 外 节点 处 结束 的 。 比 较 次 数 等 同 于 二 进位 探查 的 次 数 ,在 一 次 成 功 的 查找 中 此 

数 要 加 1。 例如 ,在 图 35 中 ,平均 来 说 ,一 次 成 功 的 查找 将 花费 2 祁 次 二 进位 探查 和 


3 也 次 比较 ;一 次 不 成 功 查 找 的 二 进位 探查 和 比较 次 数 都 将 是 3 吾 。 
现在 设 gv(<) 是 具有 N 个 节点 的 树 的 “平均 "a(z) ;换言之 ,gn(z) 是 对 于 具有 
N 个 内 节点 的 所 有 二 进 数字 查找 树 的 求 和 式 如 prar(z) ,其 中 ar(z) 是 了 的 内 节 
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点 的 生成 函数 ,p, 是 当 使 用 算法 了 DD 插入 NN 个 随机 数 时 工 出现 的 概率 。 那 么 ,在 一 
次 成 功 的 查找 中 二 进位 探查 的 平均 次 数 将 是 gn (1)/N ,在 一 次 不 成 功 的 查找 中 为 


1 
“(2)- 
我 们 可 以 模拟 树 的 构造 过 程 计算 出 gn(z) 如 下 。 如 果 a(z) 是 有 NN 个 市 点 的 


一 株 树 的 生成 函数 , 则 我 们 可 以 通过 在 任何 一 个 外 节点 位 置 上 作 下 一 次 插入 ,而 形 
成 N+1 株 树 , 这 个 插入 以 2 :的 概率 进 到 级 ! 上 一 个 给 定 的 外 节点 ;因此 ,N+1 株 


新 树 的 生成 函数 乘 以 出 现 的 概率 再 求 和 为 (=)+ 引 |[ 广 =]= a(z)+1+(z 一 1)4 
[去 = )。 对 于 所 有 具有 N 个 节点 的 树 取 平均 值 , 就 得 


gw,i(z) = gn(z) +1+ (2 -1)gn(3*); go(z) = 0 (8) 


外 节点 对 应 的 生成 函数 hw(z) =1+ (2z -1)gn(z) ,是 更 为 容易 给 出 的 ,因为 (8) 等 
价 于 公式 


hyni(z) = Anv(z)+(2z -Din| 广 =j; ho(z) = 1 (9) 
重复 地 应 用 这 个 规则 ,我 们 求 得 


Pi(z) =hy (2) + 2(2z2 -1)PN- (2 }+ (2z — D(z — hy 上 (二 }- 
hn-2(z) 二 302z — 1)hn- :| 本 = ): 3(2z — 1)(z— 1)hn- ,42 ): 
(2 ~- D(z-1) (Fe-1 jan 2 B2| 
等 等 ,于 是 最 后 我 们 有 


hn(z) = > (I — 1) (10) 
gN(z2) = Di jie- —1) (11) 


例如 ,ga(z)=4+6(z—1) 十 4(z 一 工 ) 2-1 二 (之 -D(z2-1)(4: -1]。 这 
些 公式 使 得 有 可 能 把 我 们 正在 寻找 的 量 表 达 为 乘积 的 和 : 


= ah = DY, J- (12) 
gn( 广 )= Di jIIe- -1) = CN — Cw (13 ) 


这 个 CN 的 公式 满足 (6) ,这 全 然 不 是 显然 的 ! 
可 惜 ,由 于 2 -1 是 负 的 ,这 些 表 达 式 不 便于 计算 或 求 出 一 个 渐 近 展开 式 ; 我 
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们 得 到 相当 大 的 项 并 有 大 量 的 消去 。 应 用 习题 5.1.1-16 的 分 划 恒 等 式 , 可 以 得 到 
Cw 的 一 个 更 有 用 的 公式 。 我 们 有 


:= 
Cu (2 


J 之 1 k 宕 0 \ 记 十 2 





(a 1)*| |(1-— De a 


1 之 0 





:AY 
Ch Cs 


j>1 k>0 


a BD "11a Be 


k 十 了 m 之 0 





NN 
2 ba 人 一 工 十 hat A 


7 之 0 J 之 0 


-n(n—1)/2 
> C0 2 (14) 
m 之 0 n>0 ||_a 一 2 一 ) 


年 一 看 去 ,这 似乎 并 不 是 对 于 等 式 (12) 的 一 个 改进 ,但 它 有 个 很 大 的 优点 , 即 它 对 于 
每 个 固定 的 n 对 m 的 求 和 和 沸 迅 速 收 化 。 对 于 等 式 5.2.2-(38)、 和 5.2.2-(39) 中 检 
索 结 构 的 情况 ,出 现 一 种 精确 地 类 似 的 状态 ;事实 上 ,如 果 我 们 仅仅 考虑 (14) 中 n= 
0 的 项 , 则 我 们 恰 有 N 一 1 加 上 在 一 个 二 进 检索 结构 中 的 二 进位 探查 数 。 现 在 可 以 
继续 用 同 以 前 完全 一 样 的 方式 ,得 到 这 个 渐 近 值 ;见习 题 27。|[| 上面 的 推导 在 很 大 
程度 上 是 以 A.J.Konheim 和 D.J.Newman 所 提议 的 方法 为 基础 的 , 见 Discrete 
Mathematics 4(1973),57~63|。 

最 后 让 我 们 对 Patricia 进行 一 点 数学 考察 。 在 这 种 情况 下 ,二 又 树 就 像 是 在 相 
同 的 一 些 键 码 上 的 对 应 的 二 进 检 索 结 构 , 但 是 被 挤 压 在 一 起 了 (因为 SKIP 字段 消去 
了 1 路 分 支 ) ,因此 总 有 N -1 个 内 节点 和 N 个 外 节点 。 图 36 示 出 了 对 应 于 图 34 
的 检索 结构 中 16 个 键 码 的 Patricia 树 。 在 每 个 分 支 节点 中 所 示 的 数 是 SKIP 的 数 
= 管 外 节点 并 不 明显 地 出 现 , 但 键 码 还 是 用 外 节点 来 标记 (实际 上 每 个 外 节点 都 

一 个 带 标志 的 链接 代替 ,该 链接 通 到 一 个 访问 TEXT 的 内 部 节点 处 )。 为 了 分 析 的 
的 ,我 们 可 以 假定 如 所 示 那 样 存在 外 节点 。 

由 于 通过 Patricia 进行 的 成 功 查找 结束 于 外 节点 处 , 故 在 一 次 随机 的 成 功 查 找 
中 所 作 的 二 进 探查 的 平均 数 将 是 外 部 路 径 长 度 除 以 N。 如 果 我 们 对 于 外 节点 , 像 上 
边 那 样 构 造 生 成 函数 gp(z), 则 这 将 是 2 (1)/5(1)。 通 过 Patricia 的 一 次 不 成 功 的 查 
找 ,也 结束 在 一 0 但 级 ! 上 的 外 节点 均 以 概率 2 ‘加 权 , 所 以 二 进位 探 


查 的 平均 数 是 二 人 }: 例如 ,在 图 36 中 ,我 位 有 8(z)=3z3+8z4+3z5+2z63; 平 
均 说 来 ,每 次 成 功 的 查找 有 4 工 个 二 进位 探查 ,每 次 不 成 功 的 查找 有 3 佐 和 个 。 


设 h,(z) 是 由 nn Pe ,利用 一 致 分 布 的 键 码 构造 成 的 一 株 Patricia 树 的 “ 平 
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均 ”"b(z)。 递 推 关系 
h, (2) = 2 5 ("h(a)(e + 8 (1 2)), ho(z) = 0, hi(z) = 1 (15) 
似乎 没有 简单 的 解 。 地 而 平均 的 外 部 路 径 长 度 h (1) 有 一 个 简单 的 弟 推 式 , 因 为 


(1 ) =27" 3 Jal) + 2 > ( 0 ~ 6m) = 


jn 2 12 5 (al) (16) 


由 于 这 有 (6) 的 形式 ,我 们 就 可 以 使 用 已 经 建立 的 用 来 解 h”(1) 的 诸 方 法 ,其 结果 恰 
巧 比 在 一 个 随机 的 二 进 检索 结构 中 对 应 的 二 进位 的 探查 数 小 n。 于 是 对 于 随机 数 
据 ,SKIP 字段 为 每 次 成 功 的 查找 节省 一 个 二 进位 探查 (见习 题 31)。 典 型 的 实际 数 
据 的 宛 余 性 将 导致 更 大 的 节省 。 


WO) 口 (1 0 WU 口 口 
OO 一 一 
S 2 2 
wo 一 个 
| 口 口 局 "| (G3) 口 口 (4) DO 口 
© OO QQ CG SO 一 二 se 
SS SS SS 5  &Q SS 于 
mnvibb DD © A 
| 局 | (7 
3 3 > 
~] un tn 
| 口 
S 总 
不 忆 


图 36 ”Patricia 构造 代替 图 34 的 树 


当 我 们 试图 推算 用 Patricia 进行 的 一 次 随机 的 不 成 功 查 找 的 二 进位 探查 平均 数 
时 ,我 们 得 到 递 推 式 








a 1+ dp， 对 于 nn 宇 2; ao==al=0 (17) 
2 Ze k 
这 里 ,a， 六 名 ( 雯 )。 这 不 是 我 们 已 经 研究 过 的 任何 递 推 式 的 形式 ,而 且 也 不 容易 


2 
地 它 转换 成 过 夫 见 过 的 那 种 递 推 式 。 在 5.2.2 小 节 介 绍 的 Mellin 转换 理论 以 及 在 
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那里 引用 的 参考 文献 ,提供 了 人 处理 有 一 个 数字 特征 的 递 推 式 的 高 级 方法 。 事 实 上 ， 
已 经 证 明了 这 个 解 包含 贝 努 利 数 : 


n—1 


71Q，_ 1 n B, 
2 -n+2= 2(, ) a 对 于 ”之 2 (18) 
这 个 公式 大 概 是 我 们 需要 解决 的 最 难 的 渐 近 问题 ;习题 34 中 的 解 ,是 对 我 们 以 前 做 
过 的 许多 事情 的 有 益 的 回顾 ,并 带 有 某 些 稍微 不 同 的 意味 。 


分 析 的 综述 ”作为 本 节 所 有 复杂 的 数学 推导 的 结果 ,下 列 事实 也 许 是 最 值得 注 
意 的 。 

a) 为 把 N 个 随机 键 码 存 进 一 个 M 进 检索 结构 中 所 需要 的 节点 数 (检索 结构 中 
的 分 文 终 止 于 键 数 科 * 的 子 文件 ) 近似 地 是 N/(sln M)。 这 个 近似 对 于 很 大 的 NN， 
小 的 ,以 及 小 的 M 是 正确 的 。 由 于 一 个 检索 结构 包含 M 个 链接 字段 ,故我 们 兰 
选择 ;= M , 则 仅 需 要 大 约 N/In M 个 链接 字段 。 

b) 在 所 有 考虑 过 的 方法 中 ,一 次 随机 查找 期 间 考 察 的 数字 或 字符 个 数 ,近似 为 
logv NN。 当 M =2 时 ,各 种 分 析 给 了 我 们 下 列 更 精确 的 二 进位 探查 数 的 近似 值 : 


成 功 的 不 成 功 的 
检索 结构 查找 lg N +1.33275 lg N - 0.10995 
数字 树 查 找 lg N -1.71665 lg N - 0.27395 
Patricia lg N + 0.33275 lg N - 0.31875 


(这 些 近 似 都 可 用 基本 数学 常数 来 表达 ,例如 0.31875 代表 (ln x 一 7Y)/ln 2 1/2.,) 

c) 这 里 的 “随机 ”数据 意味 着 M 进 数 字 是 一 致 分 布 的 ,就 好 像 诸 键 是 0 一 1 之 间 
以 M 进 记 法 来 表达 的 实数 那样 。 数 字 查 找 方 法 同 键 码 进入 文件 的 次 序 无 关 ( 算 法 
D 除外 , 它 是 惟一 对 次 序 稍微 敏感 的 ); 但 它们 对 于 数字 的 分 布 非 常 敏 感 。 例 如 ,如 
果 0 的 二 进位 比 1 的 二 进位 更 普遍 , 则 这 株 树 将 变 得 比 上 面 分 析 的 随机 数据 的 情况 
显得 更 为 倾斜 (习题 5.2.2-53 探讨 了 一 个 例子 ,说 明 当 数据 如 此 偏向 时 发 生 的 情 
况 )。 


习 是 


1.[00] 如果 一 株 树 有 了 叶 , 则 一 个 检索 结构 有 什么 ? 
2.[20] 利用 算法 全 的 约定 , 试 设计 把 一 个 新 的 键 码 插入 到 一 个 M 进 检索 结构 中 去 的 算法 。 
3.[21] 利用 算法 工 的 约定 , 试 设计 从 一 个 M 进 检索 结构 删 去 一 个 键 码 的 算法 。 

4.[21] 表 1 中 的 360 个 项 的 大 多 数 都 是 空白 ( 空 链接 )。 但 是 我 们 可 以 通过 使 一 些 空 的 项 同 
非 空 的 项 进行 重合 ,把 这 张 表 压 缩 成 49 个 项 如 下 : 
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Position 


QS 
od 


工 
Entry CC- 


Position 


Entry 





( 表 1 的 节点 (1),(2),…,(12) 分 别 在 这 个 压缩 表 内 的 位 置 20,19,3,14,1,17,1,7,3,20,18,4 处 
开始 。) 
证 明 ,如 果 以 压缩 的 表 代 替 表 1, 则 程序 全 仍 将 有 效 ,但 不 十 分 快 。 

5S5.[M26] (Y.N.Patt) 图 31 的 诸 树 ,在 每 族 中 它们 的 的 字母 都 是 按 字符 顺序 排列 的 。 这 
种 顺序 不 是 必要 的 ,如 果 我 们 在 构造 像 (2) 那 样 的 二 又 树 表示 之 前 ,重新 安排 族 内 节点 的 顺序 , 则 
可 得 到 更 快 的 查找 。 从 这 个 观点 看 ,图 31 的 什么 样 的 重新 排列 是 最 优 的 ? (利用 图 32 的 频率 假 
定 ,并 且 去 找 这 样 的 森林 , 即 当 它 表 示 成 一 株 二 叉 树 时 , 它 使 成 功 的 查找 时 间 极 小 化 。) 

6.[15] 如 果 通 过 算法 D 以 递增 次 序 揪 人 1S 个 4 位 二 进 键 码 0001 ,0010,0011,…,1111, 则 
将 得 到 什么 样 的 数字 查找 树 ( 在 根 处 以 0001 开始 ,而 后 进行 14 次 插入 )? 

入 7.[ M26] 如 果 以 另 一 种 次 序 插 和 人 习题 6 的 15 个 键 码 , 则 我 们 得 到 一 株 不 同 的 树 。 在 这 些 键 
码 的 所 有 151 个 可 能 的 排列 当中 , 哪 一 个 是 最 坏 的 ? 所 谓 最 坏 指 的 是 它 产生 具有 最 大 内 部 路 入 
长 度 的 一 株 树 。 

8.[20] 考虑 下 列 对 于 算法 D 的 修改 , 它 有 消去 变量 K 的 作用 :在 步骤 D2 中 在 两 个 位 置 上 
都 把 “K’” 改 成 “K”, 并 从 步骤 D1 删 去 操作 “K 一 K”。 试 问 得 到 的 算法 对 于 查找 和 和 插入 是 否 仍 将 
正确 ? 

9.[21] 写 出 算法 D 的 一 个 MIX 程序 ,并 把 它 同 程序 6.2.2T 作 比 较 。 你 可 以 使 用 诸如 SLB 
( 左 移 的 二 进位 AX)。JAE( 如 果 A 为 偶 则 转移 ) 等 二 进 操作 ;你 也 可 以 使 用 习题 8 的 思想 ,如 果 它 
有 帮助 的 话 。 

10.[23] 给 定 一 个 文件 ,其 中 所 有 键 码 都 是 ”位 二 进 数 , 并 给 定 一 个 查找 变 元 K = 1062… 
b, ,假设 我 们 要 来 求 & 的 这 样 一 个 极 大 值 ,使 得 在 这 个 文件 中 存在 一 个 键 码 , 它 以 二 进位 模式 
bi1b,"…b, 开始 。 

如 果 把 这 个 文件 表示 成 

a) 一 株 二 进 查 找 树 (算法 6.2.2T); 

b) 一 个 二 进 检索 结构 (算法 工 ) ; 

c) 一 个 二 进 数 字 查 找 树 ( 算 法 D) , 则 我 们 如 何 能 有 效 地 进行 ? 

11.[21] 如 果 不 作 改变 ,试问 算法 6.2.2D 是 否 可 用 来 从 一 株数 字 查找 树 删 去 一 个 节点 ? 

12.[25] 在 由 算法 DD 构造 的 一 株 随 机 数字 查找 树 中 删 去 一 个 随机 元 素 之 后 ,得 到 的 树 是 否 
仍 是 随机 的 (参考 习题 11 和 定理 6.2.2H)? 

13.[20] (M 进 数 字 查 找 ) 说 明 算法 工 和 D 怎样 才 能 被 组 合成 为 一 个 扩充 的 算法 , 即 当 M 
=2 时 它 实 际 上 同 算法 D 一 样 。 如 果 对 于 M = 30 使 用 你 的 算法 , 则 对 表 1 将 作 什么 改动 ? 

14.[25] 试 设计 一 个 有 效 的 算法 ,在 算法 P 成 功 地 结束 之 后 , 它 能 接着 做 下 去 ,以 确定 出 K 
出 现 于 TEXT 中 的 所 有 位 置 。 
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13.[28」 试 设 计 一 个 有 效 的 算法 , 它 能 用 来 构造 为 Patricia 所 使 用 的 树 , 或 者 用 来 把 新 的 
TEXT 访问 播 入 到 一 株 现存 的 树 当 中 ,你 的 插入 算法 至 多 只 能 访问 TEXT 阵列 两 次 。 

16.[22] 为 什么 对 Patricia 作出 这 样 的 限制 , 即 任何 键 码 不 能 是 另 一 个 键 码 的 前 缀 ,是 合 平 
要 求 的 ? 

17.[ M25] 通过 推广 习题 5.2.2-36 的 技术 ,借助 二 项 式 变换 , 找 出 一 种 表达 递 推 式 


To= XI1=0; x, = a,+ mr" (Ym -1)” “zx,，n 宇 2 
解 的 方式 。 
18.[ M21] 借助 类 似 于 习题 5.2.2-38 中 定义 的 函数 U, 和 V, ,利用 习题 17 的 结果 ,表达 (4) 
和 (5) 的 解 。 
19.[HM23] 对 于 固定 的 ;之 0 和 m.>1, 求 当 n 一 0 时 函数 


ro = 加 (四 四 后 的 


me*-! 
的 渐 近 值 到 O(1)。[ 在 习题 5.2.2-50 中 已 经 解决 了 s=0 的 情况 ,而 在 习题 5.2.2-48 中 已 经 解决 
了 s=1,m = 二 2 的 情况 ]。 

20.[ M30] 如 果 在 M 进 检 索 结 构 存 储 中 , 当 我 们 达到 键 数 二; 的 子 文件 时 ,即使 用 顺序 查找 
(算法 全 是 ;=1 时 的 特殊 情况 )。 试 应 用 上 面 一 些 习 题 的 结果 来 分 析 

a) 检 索 结 构 节 点 的 平均 数 ，; 

b) 在 一 次 成 功 的 查找 中 数字 或 字符 探查 的 平均 数 ; 以 及 

co) 在 一 次 成 功 的 查找 中 所 作 的 平均 比较 次 数 。 

对 于 固定 的 M 和 ;, 把 你 的 答案 叙述 成 当 N 一 时 的 渐 近 公式 ;对 于 (a) 的 答案 应 该 精确 到 
O(1) 的 范围 内 ,而 对 (b) 和 (c) 的 管 案 应 该 精确 到 O(N-1) 的 范围 内 。[ 当 M =2 时 ,这 个 分 析 也 
可 应 用 于 修正 的 基数 交换 排序 上 ,在 这 个 排序 中 ,其 大 小 过 : 的 子 文件 是 通过 插入 排序 的 。] 

21.[ M25 |] 在 含有 N 个 键 码 的 一 个 随机 M 进 检 索 结 构 中 ,有 多 少 个 节点 在 表 的 项 0 中 有 一 
个 空 的 指针 ? (例如 ,在 表 1 的 12 个 节点 中 ,有 9 个 在 “ "位置 中 有 空 指针 。 本 题 中 的 “随机 ” 像 
通常 一 样 意味 着 键 码 的 字符 一 致 地 分 布 在 0 与 M -1 之 间 。) 

22.| M25 ] 在 含有 N 个 键 码 的 一 个 M 进 检索 结构 中 对 于 ! =0,1,2,…, 有 多 少 检索 结构 节 
点 位 于 级 ! 上 。 

23.| M26 |] 在 含有 六 个 随机 键 码 的 一 个 M 进 检索 结构 中 ,在 一 次 不 成 功 的 查找 期 间 ,平均 
作 多 少 个 数字 探查 ? 

24.[M30」 考虑 一 个 M 进 检 索 结 构 , 它 已 经 表示 作 一 片 森林 (参见 图 31)。 试 找 出 对 于 下 列 
两 项 精确 的 和 渐 近 的 表达 式 

a) 在 森林 中 节点 的 平均 数 ; 

b) 在 一 次 随机 的 成 功 查找 中 执行 的 “P< 一 RLINK(P)” 的 平均 次 数 。 

25.[ M24] 在 本 节 中 对 于 渐 近 值 的 数学 推导 已 经 十 分 困难 ,同时 涉及 复 变 理论 ,这 是 因为 希 
望 得 到 比 渐 近 特性 的 第 一 项 还 要 多 的 结果 (而 第 二 项 实质 上 是 复杂 的 )。 本 题 的 目的 是 证 明 , 对 于 
导出 某 些 较 弱 的 结果 ,初等 方法 已 够 用 了 。 

a) 通 过 归纳 法 证 明 ,(4) 的 解 满 足 A 三 M(N -1)/(M -1)。 

b) 设 Dy= Cn 一 NHN-1/In M ,其 中 Cy 由 (5) 定 义 。 证 明 Dy= O(N), 因 此 Cv = NlogvN+ 
O(N)。|[ 提 示 ; 用 (a) 和 定理 1.2.7A]。 

26.[23] 通过 手 算 ,确定 无 穷 乘 积 
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1- 二)(1- 计 儿 1- 训 )(1- 亩 ) 

的 值 ,精确 到 五 位 十 进 数 。[ 提 示 : 参 见习 题 5.1.1-16。] 

27.[HM31] 如 同 由 (14) 给 出 的 那样 ,Cn 精确 到 O(1) 的 渐 近 值 是 什么 ? 

28.LHM26 ] 对 一 般 的 M 之 2, 当 在 一 株 随 机 的 M 进 数 字 查 找 树 中 进行 查找 时 , 试 求 数字 探 
查 的 渐 近 平均 次 数 , 既 考虑 成 功 的 也 考虑 不 成 功 的 查找 ,并 给 出 你 的 答案 ,精确 到 O(N-!)。 

29.[ RM40] 在 一 株 M 进 数 字 查找 树 中 ,所 有 的 M 链接 均 为 空 的 那些 节点 的 渐 近 平均 数 是 
多 少 ? (我 们 可 以 通过 消去 这 样 的 节点 来 节省 内 存 空间 ;参见 习题 13。] 

30.[ M24] 证 明 在 (15) 中 定义 的 Patricia 的 生成 函数 可 以 表达 成 相当 吓人 的 形式 


n > ” > 
a1+ +a 


7 一 工 1 
气 la an ) (2% ~ 1)(2002 一 1 (2477*em — 1) 
[于 是 ,如果 对 h,(z) 有 一 个 简单 的 公式 , 则 我 们 将 有 能 力 来 简化 这 个 相当 笨拙 的 表达 式 。] 
31.L M21 |] 解 递 推 式 (16)。 
32.[ M21 ]j] 在 具有 NN 一 1 个 内 节点 的 一 株 随 机 Patricia 树 中 ,所 有 的 SKIP 字段 之 和 的 平均 值 
是 什么 ? 
33.[M30]」]」 证 明 (18) 是 对 递 推 式 (17) 的 一 个 解 。[ 提 示 :; 考 虑 生成 函数 A(z)= 2,>0a,z”| 
nl1,。 | 
34.LHM40」 本题 的 目的 是 求 (18) 的 渐 近 特性 。 
a) 证 明 ,如果 nn 宇 2 
1 hn B 1”"-1 2n-1] os 27 一 1 n—1l1 2 1 
,和 的 Fe T > - i -+ 也) 
b) 证 明 (a) 中 的 被 加 数 近 似 于 1/(e7 一 1) 一 1/z + 1/2, 其 中 之 =n/2’; 得 到 的 和 等 于 原来 的 和 + 
O(n !)。 





c) 证 明 
= 1 一 去 + = A 5(z)F(z)z “dz, 对 于 实 zx>0 
d) 因 此 这 个 和 等 于 
| Ea + O(n 
计算 这 个 积分 。 


P35.[ M20 ] 在 五 个 键 上 的 Patricia 树 将 是 





且 有 如 图 所 示 的 SKIP 字段 a ,b,c ,4d 的 概率 是 多 少 ? (假定 诸 键 码 都 有 独立 的 随机 二 进 数 ,把 答 
案 作 为 ab,c,d 的 函数 给 出 。) 
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36.[M25」 效 有 具有 三 个 内 节点 的 五 株 二 叉 树 。 如 果 我 们 考虑 在 各 种 算法 下 ,对 于 随机 数据 
这 些 树 中 的 每 一 株 作 为 查找 树 出 现 的 频率 , 则 我 们 发 现下 列 不 同 的 概率 : 


入 


查找 树 1 1 1 1 1 
(算法 6.2.2T) 6 6 3 6 6 
数字 树 查 找 1 1 1 1 1 
(算法 D) 8 8 2 8 8 
Patricia 1 1 3 1 1 
(算法 P) 7 7 7 7 7 


(注意 数字 查找 树 往往 比 其 它 树 更 经 常 地 成 为 平衡 的 。) 在 习题 6.2.2-5 中 ,我 们 发 现在 树 查 找 算 
法 中 ,一 株 树 的 概率 是 II(1/s(z)) ,其 中 乘积 对 所 有 内 部 节点 x 进行 ,而 且 s(xz) 是 在 以 z 为 根 的 
子 树 中 内 节点 的 个 数 。 在 (a) 算 法 D;(b) 算 法 P 的 情况 下 , 试 求 一 株 树 的 概率 的 类 似 公式 。 

> 37.[ M22 ] 考虑 在 级 ! 上 具有 bi 个 外 节点 的 一 株 二 又 树 。 正 文 发 现在 数字 查找 树 中 ,不 成 
功 的 查找 的 运行 时 间 不 直接 同 外 部 路 径 长 度 纪 i6, 有 关 , 而 是 实质 上 同 修 正 过 的 外 部 路 径 长 度 
1612 成 正比 。 证 明 或 否定 :对 于 具有 N 个 外 节点 的 所 有 树 来 说 ,最 小 的 修正 过 的 外 部 路 径 长 
度 出 现 的 条 件 是 ,所 有 外 节点 都 出 现在 至 多 两 个 相 邻 的 级 上 [参见 习题 5.3.1-201。 

38.[M40] 给 定 a 和 8 ,在 习题 37 的 意义 下 , 试 建立 一 种 算法 ,来 找 使 a: (内 部 路 径 长 度 ) + 
B* (修正 过 的 外 部 路 径 长 度 ) 取 极 小 值 的 ”个 节点 的 树 。 

39.[ M43 ] 建立 一 个 算法 ,来 找 类 似 于 6.2.2 小 节 所 考虑 的 最 优 二 分 查找 树 的 最 优 数字 查找 
树 。 

入 40.[25] 设 coalta?… 是 一 个 周期 二 进 序列 , 且 对 于 所 有 & 之 0, 此 有 an; ;= ae 证 明 有 一 种 
方法 以 O(N) 个 内 存单 元 来 表示 这 种 类 型 的 任何 固定 序列 ,使 得 下 列 操作 可 以 在 仅仅 O(n ) 步 内 
完成 :给 定 任何 二 进 型 式 b051…6;_1, 确 定 这 个 形式 在 周期 中 出 现 的 频繁 程度 ( 即 , 问 有 多 少 p 值 
存在 且 同 时 满足 下 列 两 个 条 件 :0 三 p<NN, 且 对 于 0 二 k<n, 有 bi =a,+4)。 这 个 型 式 的 长 度 n 以 
及 型 式 本 身 也 是 变量 。 假 定 每 一 个 内 存单 元 都 足够 大 来 存放 0~ 六 之 间 的 任何 整数 。[ 提 示 : 参 
见习 题 14] 

41.L HM28] 这 是 对 群 论 的 一 个 应 用 。 设 G 是 字母 ial,…,a,|} 上 的 自由 群 , 即 , 所 有 串 a= 
pp 的 集合 ,其 中 每 个 5; 是 a; 或 a; 之 一 , 且 没 有 相 邻 的 对 aay 或 aja; 出 现 。a 的 道 是 
6b …b1 ,两 个 这 样 的 串 的 相 乘 方法 是 连接 它们 并 消去 相 邻 的 互 道 的 对 。 设 五 是 通过 串 {Bi ，…， 
Bs 生成 的 G 的 子 群 , 即 ,可 以 写成 诸 B 及 它们 的 逆 的 乘积 的 G 的 所 有 元 素 的 集合 。 按 照 (Jakob 
Nielsen) 一 个 著名 定理 (参见 Marshall Hall, The Theory of Groups (纽约 :Macmilan ,19S9) ,第 7 
章 )。 我 们 总 可 以 求 五 的 生成 元 0 ,…，, 0, , 且 m 志 pp, 它们 具有 如 下 性 质 : 诸 0; 的 中 间 字 (或 者 如 
果 它 的 长 度 为 偶数 , 则 至 少 为 6 的 两 个 中 间 字 符 之 一 ) 在 表达 式 6 或 60; 中 绝 不 被 抵 销 ,这 里 e 
= 土 1 ,除非 ;=i 且 e= -1。 这 个 性 质 意味 着 ,有 一 个 简单 的 算法 用 于 检测 G 的 一 个 任意 的 元 素 
是 否 在 互 中 :利用 272 个 字母 aol, an al ，"…,a; 在 一 个 面向 字符 的 查找 树 中 记录 2m 个 键 9,， 
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…,0%,01 ，…,0mo 设 a= 61…b, 是 G 的 一 个 给 定 的 元 素 ; 如 果 r=0, 则 a 显然 在 五 中 。 和 否则 查 
找 a, 求 能 匹配 一 个 键 码 的 最 长 前 级 61… 65。 如 果 有 一 个 以 上 以 51…bi 开始 的 键 码 , 则 wx 不 在 五 
中 ;否则 设 惟一 的 这 样 的 键 码 是 51… bic4…cl= 如 ,以 外 "a= cp cr bi+4…b; 代替 a。 如 果 这 个 a 
的 新 值 比 旧 的 更 长 ( 即 如 果 1 >k), 则 a 不 在 五 中 ;否则 对 w 的 新 值 重复 此 过 程 。Nielsen 性 质 意 
味 着 这 个 算法 总 能 结束 。 如 果 a 最 终归 结 成 空 串 , 则 我 们 可 以 把 原来 的 a 的 表示 重新 构造 成 为 诸 
6 的 一 个 乘积 。 

例如 , 设 16 ,6 ,6 =1060 0 a 5 ,ba pb| 且 aa= bbabaab ,森林 


© 3 
(a) CD (8 2) @ 2 
0) 8) 2) 4) 
02 03 90) 03 02 0 


可 用 于 上 述 算法 来 导出 a= 0103 0103 9; 。 给 定 诸 9 作为 你 的 程序 的 输入 试 实现 这 个 算法 。 

42.[23] (前 压缩 和 后 压缩 ) 当 二 进 键 码 的 一 个 集合 被 用 作 下 标 以 分 划一 个 较 大 的 文件 
时 ,我 们 不 必 存 储 完全 的 键 码 。 例 如 ,如果 使 用 图 34 的 16 个 键 码 , 则 只 要 已 经 给 出 足够 位 的 数字 
来 惟一 地 识别 它们 ,就 可 以 在 右边 截断 这 些 键 码 :0000 ,0001,00100 ,00101 ,010 ,… ,1110001。 这 
些 截断 了 的 键 码 可 用 来 把 一 个 文件 划分 成 17 部 分 ,其 中 ,例如 第 五 部 分 由 所 有 的 以 0011 或 010 
开始 的 键 码 组 成 ,而 最 后 部 分 包含 以 111001,11101 或 1111 开始 的 所 有 键 码 。 在 截断 后 的 键 码 
中 ,如 果 我 们 去 掉 所 有 同上 一 个 键 码 相同 的 前 导数 字 , 则 可 以 表示 得 更 紧 竣 :0000,0O001,09 
100,0O0O001,010,…,OOO000901。 跟随 人 后 边 的 二 进位 总 是 1, 所 以 它 可 以 去 掉 。 一 个 大 的 
文件 将 有 许多 OO ,而 且 我 们 仅仅 需要 存储 今 的 个 数 和 随后 的 二 进位 的 值 。 

试 证 明 ,在 压缩 的 文件 中 ,除开 仿 和 跟随 今 的 二 进位 1 外 ,二 进位 的 总 数 总 等 于 键 码 的 二 进 检 
索 结构 中 的 节点 数 。 

(因此 ,在 整个 下 标 中 ,这 样 的 二 进位 的 平均 总 数 大 约 是 N/in 2, 即 每 个 键 码 仅 1.44 个 二 进 
位 。 这 项 压缩 技术 是 由 A.Heller 和 R.L,.Johnsen 告知 作者 的 。 由 于 我 们 仅 需 表示 检索 结构 ,因此 
还 可 能 作 进 一 步 压缩 ;参见 定理 2.3.1A 。,) 

43.[HM42 ] 试 分 析 有 N 个 键 码 和 如 同 在 习题 20 中 一 样 有 切断 参数 * 的 一 个 随机 M 进 检 
索 结 构 的 高 度 。( 当 ;=1 时 ,这 是 在 M 进 字母 表 中 N 个 长 的 随机 字 的 最 长 公共 前 级 的 长 度 。) 

P44.[30] (J.L.Bentley 和 R.Sedgewick) ” 试 剖 析 检 索 结 构 的 一 个 三 进 表 示 ,其 中 左右 链接 对 

应 于 (2) 的 水 平分 支 而 中 间 链 接 对 应 于 向 下 的 分 文 。 

45.[ M25] 如 果 通 过 习题 15 的 算法 把 图 33 的 七 个 关键 字 以 随机 次 序 插入 , 问 得 到 所 示 的 树 
的 概率 是 多 少 ? 


6.4 散 列 


至 今 我 们 已 经 考虑 的 查找 方法 ,是 以 给 定 的 变 元 K 同 表 中 的 键 码 作 比较 ,或 使 

用 它 的 数字 ,来 支配 一 个 转移 过 程 为 基础 的 。 第 三 种 可 能 性 是 避免 来 回 搜 查 ,这 就 

是 通过 对 K 作 某 种 算术 运算 ,计算 一 个 函数 f(K), 它 是 KK 的 位 置 和 表 中 的 相关 数 
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据 。 

例如 ,再 次 考虑 31 个 英文 字 的 集合 ,在 6.2.2 小 节 和 6.3 节 中 我 们 已 经 对 于 这 
些 英 文字 施 以 各 种 查找 策略 。 表 1 示 出 一 个 短 的 MIX 程序 , 它 把 这 31 个 键 码 的 每 
一 个 部 变 成 为 在 -10 和 30 之 间 惟 一 的 数 F(K)。 如 果 我 们 把 这 个 MIX 程序 所 用 的 
方法 同 已 经 考虑 的 其 它 方法 (例如 ,二 分 查找 ,最 优 树 查 找 , 检 索 结 构 存 储 , 数 字 树 查 
找 ) 作 比较 , 则 发 现 ,从 空间 和 速度 两 方面 看 , 它 都 是 更 好 的 ,只 有 二 分 查找 使 用 的 内 
存 稍微 少 些 。 事 实 上 ,对 于 图 12 的 频率 数据 ,使 用 表 1 的 程序 ,一 次 成 功 的 查找 的 
平均 时 间 ,大 约 仅 17.8u ,而 且 为 存储 31 个 键 码 仅 需要 41 个 表单 元 。 

可 民 ,发 现 这样 的 函数 f(K ) 并 不 是 很 容易 的 。 从 一 个 31 个 元 素 的 集合 到 一 个 
41 元 素 的 集合 有 41 和 10 种 可 能 的 函数 ,而且 它们 当中 仅仅 41.40，…:11=411 / 
101 六 10 个 能 对 每 个 变 元 给 出 不 同 的 值 ;于 是 每 一 千 万 个 函数 当中 大 约 仅 仅 有 一 
个 是 适用 的 。 

避免 重复 值 的 函数 是 异常 稀少 的 ,甚至 对 于 一 个 相当 大 的 表 也 是 这 样 。 例 如 ， 
车 名 的 “生日 诗 论 "断言 ,如 果 有 23 个 以 上 的 人 在 一 个 房间 里 , 则 他 们 当中 两 个 人 有 
相同 的 出 生 月 日 的 可 能 性 很 大 。 换 言 之 ,如 果 我 们 选择 一 个 随机 函数 , 它 映 射 23 个 
键 码 到 大 小 为 365 的 一 张 表 中 , 则 两 个 键 码 不 映射 到 同一 个 单元 的 概率 仅仅 是 
0.4927( 少 于 二 分 之 一 )。 这 一 结果 的 怀疑 者 们 不 妨 在 他 们 参加 的 下 一 次 大 型 集会 
上 查 查 各 人 的 生日 有 无 相同 的 。 

[生日 停 论 在 1930 年 代 曾 由 数学 家 们 非 正 式 地 讨论 过 ,但 它 的 起 源 不 清楚 。 参 
(1.J.Good,Probability and the Weighing of Evidence (Griffin,1950), 38, 也 请 参见 
(R.von Mises), lIstanbul Universitesi Fen Fakiltesi Mecmuasl 4(1939),145 一 163, 以 
R(W .Feller) ,An Introduction to Probability Theory( 纽约 :Wiley,1950),2.3 节 ] 

万 一 方面 , 表 工 中 所 用 的 方法 是 相当 灵活 的 [参考 M .Greniewski 和 W .Turski, 
C4CM 6 〈1963) ,322 一 323] ,而 且 对 于 一 张 中 等 规模 的 表 , 在 进行 了 大 约 一 天 的 工 
作 之 后 ,就 能 找到 一 个 适当 的 函数 。 事 实 上 ,解决 像 这 样 的 难题 是 颇 为 有 趣 的 。 许 
多 人 都 曾 参加 过 有 关 适 用 技术 的 讨论 ,例如 ,包括 R. Sprugnoli,CACM 20 (1977)， 
841~850,22(1979),104,553; R.].Cichelli, CACM 23(1980),17~ 19;T.].Sager, 
CACM 28 (1985), 523 ~ 532, 29 ( 1986 ), 557; B.S.Majewski, N.C.Wormald, 
G.Havas, 以 及 Z.J.Czech,Comp.J. 39 (1996),547~554;Czech, Havas 和 Majewski, 
Theoretical Comp. Sci. 182(1997) ,1 一 143。 关 于 完全 散 列 函数 的 理论 极限 ,也 请 人 参 
见 J.Korner 和 K.Marton, Europ.J. Combinatorics 9 (1988) ,$23 一 S$30 。 

当然 ,这 个 方法 有 一 个 严重 的 缺陷 ,因为 这 张 表 的 内 容 必须 是 预先 知道 的 ;增多 
一 个 键 码 都 可 能 使 一 切 甬 省, 以致 几乎 需要 从 0 开始 。 如 果 我 们 放弃 惟一 性 的 思 
想 ,允许 不 同 的 键 码 产生 相同 的 F(K) 值 ,而 且 在 计算 了 _F(K) 之 后 ,再 使 用 一 种 专 
门 的 方法 解决 任何 二 义 性 ,就 可 以 得 到 一 个 更 多 样 化 的 方法 。 

这 些 考虑 导致 了 通常 称 做 散 列 或 散 列 存储 技术 的 一 类 流行 的 查找 方法 。 动 词 
“ 黎 列 "意味 着 把 某 些 事物 市 碎 或 把 它 弄 得 乱七八糟 ; 散 列 的 思想 是 把 键 码 的 某 些 内 
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6.4 散 列 


容 打 乱 ,并 且 使 用 这 种 部 分 的 信息 作为 查找 的 基础 。 我 们 计算 一 个 散 列 驯 数 h (KK) 
而 且 使 用 这 个 值 作 为 查找 的 开始 地 址 。 

生日 诗 论 告诉 我 们 ,很 可 能 有 不 同 的 键 码 K; 关 KK;, 散 列 成 相同 的 值 h(K;)= 
六 ( 开 ; )。 这 种 情况 称 作 冲突 ,而 且 和 若干 有 趣 的 方法 已 被 想 出 来 处 理 冲 突 问 题 。 为 了 
使 用 一 个 散 列 表 , 一 个 程序 员 必 须 作 两 个 几乎 独立 的 决定 :必须 选择 一 个 散 列 函数 
h(K) 和 解决 冲突 的 方法 。 现 在 我 们 依次 考虑 这 个 问题 的 两 个 方面 。 


散 列 函数 ”为 使 事情 更 加 明显 ,我 们 在 这 一 节 始 终 假 定 , 散 列 图 数 最 多 取 M 个 
不 同 的 值 , 且 对 于 所 有 的 键 码 K 
On(K)<M (1) 
实际 上 出 现在 真正 文件 中 的 键 码 ,通常 都 有 大 量 的 元 余 性 ;我 们 必须 小 心 寻 找 一 个 
散 列 函 数 , 它 拆散 几乎 相同 的 成 群 的 键 码 ,以 便 减 少 冲突 的 个 数 。 
从 理论 上 说 ,不 可 能 定义 这 样 一 个 散 列 函 数 , 它 由 实际 文件 中 的 非 随机 数据 建 
立 随机 的 数据 。 但 实际 上 ,通过 使 用 如 同 在 第 三 章 讨论 的 简单 算术 运算 ,不 难产 生 
出 随机 数据 的 一 个 相当 好 的 拟态 。 而 且 事 实 上 ,通过 进一步 利用 实际 数据 的 非 随机 
性 质 ,来 构造 出 一 个 比 真正 随机 的 键 码 还 少 产 生 冲 突 的 散 列 函 数 ,我 们 常常 甚至 可 
以 做 得 更 好 。 
例如 ,考虑 在 一 台 十 进 制 计算 机 上 的 10 位 数字 键 码 的 情况 。 一 个 可 考虑 的 散 
列 函 数 是 ,比如 说 , 命 M = 1000, 以 及 命 h(K) 是 从 20 位 数字 的 乘积 K x K 的 接近 
于 中 间 的 某 处 选 出 的 三 位 数字 。 这 似乎 将 产生 出 在 000 一 999 之 间 相 当 好 的 散 开 的 
值 ,而 且 冲 突 概率 较 低 。 事 实 上 ,通过 实际 数据 的 实验 表明 ,假定 键 码 中 没有 大 量 的 
前 导 或 后 尾 的 0, 这 个 “平方 取 中 ”的 方法 并 不 坏 ; 但 恰 如 我 们 在 第 三 章 中 发 现 的 , 平 
方 取 中 的 方法 不 是 一 个 特别 好 的 随机 数 生 成 程序 。 还 有 更 安全 和 更 明智 的 处 理 方 
法 。 
对 上 典型 文件 所 作 的 广泛 实验 已 经 表明 ,有 两 大 类 散 列 函数 十 分 好 。 一 是 以 除法 
为 基础 的 ,而 另 一 是 以 乘法 为 基础 的 。 
除法 方法 特别 容易 ;我们 只 需 使 用 模 M 的 余数 : 
h(K)= K mod AM (2 ) 
在 这 种 情况 下 , M 的 某 些 值 显然 比 其 它 值 要 好 得 多 。 例 如 ,如果 M 是 一 个 偶数 , 则 
当天 是 偶数 时 疡 ( 氏 ) 将 是 偶数 , 当 K 是 奇数 时 ,h(K ) 也 是 奇数 ,在 许多 文件 中 这 将 
导致 相当 大 的 偏向 。 若 M 是 计算 机 基数 的 乘 方 , 那 将 是 更 坏 的 ,因为 天 mod M 将 
仅 是 KK 的 最 低位 上 的 一 些 数字 (而 同 其 它 数 字 无 关 )。 类 似 地 ,我 们 可 以 论证 ,M 大 
概 也 不 应 是 3 的 倍数 ;因为 如 果 诸 键 码 都 是 字符 的 , 则 两 个 彼此 仅仅 是 字母 排列 不 
同 的 键 码 ,在 数值 上 可 能 仅仅 差 3 的 一 个 倍数 (这 是 由 于 22*mod3=1 和 10*mod 3 
=1 而 出 现 的 现象 )。 一 般 地 说 ,我 们 要 避免 能 整除 洲 +a 的 M 值 ,其 中 和 a 是 较 
小 的 数 且 > 是 字符 集合 的 基数 (通常 r = 64,256 或 100), 因 为 对 这 样 一 个 M 值 求 
模 的 余数 ,在 很 大 程度 上 只 是 键 码 中 数字 的 简单 个 加 。 这 样 一 个 考虑 提示 我 们 选择 
AM 为 一 个 素数 使 得 对 于 小 的 & 和 a ,小 关 土 a(modulo M)。 已 经 发 现 , 这 种 选择 在 大 
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多 数 情 况 下 都 是 十 分 令 人 满意 的 。 
例如 ,在 MIX 计算 机 上 ,我 们 可 以 选择 M = 1009 ,通过 序列 
LDXx K rX<— 天 
ENTA 0 rA<0 (3) 
DIV = 1009 = rrX<— KK mod 1009 
计算 h(K)。 


乘法 的 散 列 方案 也 同样 容易 做 出 ,但 要 稍 难 描述 些 , 因 为 我 们 必须 想像 是 对 分 
数 进行 运算 而 不 是 对 整数 。 设 w 是 计算 机 字 的 大 小 ,对 于 MIX, 它 通常 是 101 或 
2™” ;我们 可 以 把 整数 A 当 作 是 分 数 A/w ,这 里 我 们 想像 小 数 点 位 于 这 个 字 的 左边 。 
这 方法 就 是 来 选择 与 w 互 素 的 某 个 整数 常数 A ,而 且 命 


hn(K) =[M | (SK jmod 1)| (4) 


在 这 种 情况 下 ,我 们 通常 设 M 在 一 台 二 进 计算 机 上 是 2 的 乘 方 ,于 是 h(K) 由 乘积 
AK 的 较 低 一 半 的 一 些 前 导 二 进位 组 成 。 
在 MIX 代码 中 ,如 果 我 们 设 M =2” 且 采用 二 进 制 , 则 乘法 散 列 函数 就 是 
LDA K rrA<—K 
MUL A IANA < AK 
ENTA 0 rAX<— AK mod w 
SLB mm rAX 的 左 移 mm 个 二 进位 
现在 疡 (天 ) 出 现在 寄存 器 A 中 。 由 于 MIX 的 乘法 和 移 位 指令 相当 慢 , 故 这 个 序列 恰 
巧 做 费 和 (3) 一 样 长 的 计算 ;但 是 在 许多 机 器 上 乘法 比 除法 要 快 得 多 。 

在 某 种 意义 下 这 个 方法 可 以 认为 是 (3) 的 推广 ,因为 例如 我 们 可 以 取 A 为 wj 
1009 的 一 个 近似 值 ; 乘 以 一 个 常数 的 倒数 ,通常 要 比 除 以 该 常数 更 快 些 。 注 意 , (5) 
几乎 就 是 “平方 取 中 "方法 ,但 有 一 点 重要 的 区 别 :我 们 将 看 到 , 乘 以 一 个 适当 的 常数 
有 许多 可 论证 的 好 性 质 。 

乘法 方案 好 的 特征 之 一 在 于 , 当 在 (35) 消 除 寄存 器 A 时 ,不 损失 信息 ;在 (5) 完 
成 之 后 ,仅仅 给 定 raAX 的 内 容 , 即 可 再 次 确定 K。 原 因 在 于 A 与 w 互 素 ,所 以 欧 几 
里 得 算法 可 用 来 求 一 常数 A ,使 得 AA” ”mod w=1; 这 意味 着 KK =(A’(AK mod 
w))mod w。 换 言 之 ,如 果 f(K) 表 示 在 (5) 中 的 SLB 指令 之 前 寄存 器 XxX 的 内 容 , 则 

Ki 了 关 K，。 意味 着 f(Ki1) 关 ff(K,) (6) 
当然 ,f(K) 在 0 到 w--1 的 范围 内 取 值 ,所 以 它 不 像 一 个 散 列 函数 那样 好 ,但 作为 
一 个 扰乱 函数 是 非常 有 用 的 。 所 谓 扰乱 函数 就 是 满足 (6) 和 趋向 于 把 键 码 随 机 化 的 
一 个 函数 。 如 果 键 码 的 次 序 无 关 重要 , 则 在 同 6.2.2 小 节 的 树 查找 函数 相 联 系 时 ， 
这 样 一 个 函数 可 能 是 非常 有 用 的 ,因为 当 键 码 以 递增 的 次 序 进 入 树 时 , 它 消除 了 退 
化 的 危险 性 。( 参 见习 题 6.2.2 一 10)。 如 果实 际 的 键 码 的 二 进位 有 偏向 时 , 则 一 个 
扰乱 函数 在 同 6.3 节 的 数字 树 查 找 算 法 相 联系 时 也 是 有 用 的 。 

乘法 散 列 方法 的 另 一 个 特征 是 , 它 很 好 地 利用 了 在 许多 文件 中 存在 的 非 随机 
性 。 实 际 的 键 码 集合 通常 有 一 种 算术 级 数 的 倾向 ,其 中 K,K+4d,K+2d,…,K+ 
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td| 全 都 出 现在 文件 中 ;例如 考虑 像 {PART1, PART2, PART3 | 或 者 {TYPEA, TYPEB， 
TYPEC| 这 样 的 字符 名 称 。 乘 法 散 列 方法 把 一 个 算术 级 数 转换 成 不 同 散 列 值 的 近似 
的 算术 级 数 h(K),h(K+4d),h(K+24d),…, 同 时 减少 在 随机 状态 下 我 们 所 预期 
的 冲突 个 数 。 除 法 方法 也 有 同样 的 性 质 。 

图 37 在 一 种 特别 有 趣 的 情况 下 ,说 明了 乘法 散 列 的 这 个 方面 。 假定 A/w 近似 


1 








37” 右 波 那 契 散 列 


地 是 黄金 比 $ = (VY5 一 1)/2=0.6180339887; 则 相继 的 值 ha(K),h(K+1),h(K+ 
2) 和 相继 的 散 列 值 (0),h(1),h(2),… 有 相同 的 特性 ,这 提示 了 下 面 的 实验 : 
由 线段 [0. .1] 开 始 , 逐 次 地 标 出 点 $1, 124 ,13$9 ||,…, 其 中 zl 代表 之 的 小 
数 部 分 ( 即 过-Lzj, 或 z mod 1)。 如 同 在 图 37 中 所 示 , 这 些 点 彼此 之 间 分 得 很 开 ; 
事实 上 ,每 个 最 新 增加 的 点 都 落 入 最 大 的 剩 下 的 区 间 之 一 ,而 且 按 黄金 比分 割 它 [这 
个 现象 首先 是 由 J.Oderfeld 猜测 ,并 且 由 S.Swierczkowski 证 明 的 ,Fundamenta 
Math. 46〈1958) ,187 一 189]。 在 这 个 证 明 中 , 斐 波 那 契 数 起 着 重要 作用 ]。 

黄金 比 的 这 个 值得 注意 的 性 质 实 际 上 原来 是 由 Hugo Steinhaus 猜测 并 且 首 先 
由 Vera Turan Sos 证 明 的 [Acta Math. Acad. Sci. Hung .8(19S7) ,461 一 471;Ann， 
Univ. Sci. Budapest . Eotvos Sect. Math. 1(1958),127~134|]: 


定理 S$ 设 9 是 任意 无 理 数 。 当 到 点 10/,120/,…,1n01 放 罩 在 线段 10..1j 中 
采 , 形 成 的 n + 1 个 线段 至 多 有 三 禾 不 同 的 长 度 。 而 且 , 下 一 态 1(n + 1)0| 将 洲 在 最 
大 的 现存 线 上 成 之 一 中 。 | 


于 是 ,点 10 ,120 ,tn 非常 均匀 地 散 列 在 0 一 1 之 间 。 如 果 6 是 有 理 的 , 则 
同样 的 定理 也 成 立 ,但 我 们 必须 对 长 度 为 0 的 线段 给 出 一 个 适当 的 解释 ,这 长 度 为 0 
的 线段 是 在 ”大 于 或 等 于 6 的 分 母 时 出 现 的 。 定 理 S 的 一 个 证 明 ,连同 关于 这 种 
状态 的 基础 结构 的 一 个 详细 分 析 ,出 现 于 习题 8 中 ;可 以 证 明 , 具 有 给 定 长 度 的 诸 线 
段 是 以 先进 先 出 的 方式 建立 和 破坏 的 。 当 然 , 某 些 6 比 其 它 的 6 更 好 ,因为 例如 接近 
于 0 或 工 的 一 个 值 将 以 许多 小 段 和 一 大 段 开 始 。 习 题 9 证 明 , 在 0 与 1 之 间 的 所 有 
数 9 当中 ,两 个 数 $ 和 $$ “=1 一 上 ! 导 致 “ 最 一 致 地 分 布 ” 的 序列 。 
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上 面 的 理论 提示 了 斐 波 那 契 散 列 , 其 中 我 们 选择 常数 A 作为 最 接近 于 $1!w 
的 与 w 互 素 的 整数 。 例 如 ,如果 MIX 是 十 进 计 算 机 , 则 取 


-+ Jal] [lo 7 


这 个 乘 数 将 非常 好 地 撤 开 像 LIST1 ,LIST2,LIST3 这 样 的 字符 键 码 。 但 注意 在 第 四 
个 字符 位 置 中 有 一 个 算术 级 数 的 情况 ,如 同 在 键 码 SUM1U ,SUM2U ,SUM3U 中 那样 : 
其 效果 就 像 以 6= 1100A/rw| = .80339887 代替 0 = .6180339887 = A/w 来 使 用 定 
理 S 那样 。 尺 管 这 个 9 值 不 完全 像 风 那样 好 ,但 得 到 的 结果 仍然 是 不 错 的 。 另 一 
方面 ,如 果 这 个 级 数 出 现在 第 二 个 字符 位 置 上 ,如 同 在 Al 一 一 上 一, RAR2 一 一， 
R3 一 一 一 中 那样 , 则 有 效 的 6 是 。.9887 ,而 这 可 能 太 接 近 于 1 了。 

因此 ,我 们 通过 用 像 


A=[* |61)61) 6 oe 

这 样 一 个 乘 数 代 蔡 (7) ,可 以 做 得 更 好 ;这 样 一 个 乘 数 将 分 散在 任何 字符 位 置 中 互 异 
的 连续 的 键 码 序列 。 不 幸 的 是 ,这 个 选择 遇 到 了 另外 的 问题 ,有 点 类 似 于 除 以 于 +1 
时 的 困难 :诸如 XY 和 YX 这 样 的 键 码 将 趋 于 散 列 到 相同 的 单元 ! 摆脱 这 个 困难 的 一 
种 方式 ,是 更 仔细 地 考察 定理 S 背 后 的 基础 结构 ; 当 键 码 的 级 数 很 短 时 , 则 起 作用 的 
仅仅 是 6 的 连 分 数 表 示 的 开头 几 个 部 分 商 , 而 且 小 的 部 分 商 对 应 于 好 的 分 布 性 质 。 
因此 我 们 发 现 6 的 最 好 的 值 位 于 范围 

1 3 1 3 4 之 3 

4 0 TU < 
之 中 。 可 以 找到 A 的 一 个 值 ,使 得 它 的 每 个 字 节 都 位 于 一 个 好 的 范围 之 中 ,而 且 不 
太 接 近 于 其 它 字 节 的 值 或 这 些 值 的 补 , 例 如， 


4 -| + | @4| 25| 好 | 3| 7 (8 

可 以 推荐 这 样 一 个 缚 数 。( 关 于 和 梯 法 散 列 的 这 些 思 想 大 部 分 是 由 R.W.Floyd 给 出 
的 )。 

一 个 好 的 散 列 函数 应 满足 下 列 两 个 要 求 。 

a) 它 的 计算 应 该 是 非常 快 的 。 

b) 它 应 该 使 冲突 极 小 化 。 
性 质 (a) 和 机 侣 有 关 , 而 性 质 (b) 则 与 数据 有 关 。 如 果 诸 键 码 是 真正 随机 的 , 则 我 们 
可 以 从 其 中 简单 地 抽出 一 些 二 进位 ,并 使 用 这 些 二 进位 作为 散 列 函 数 ;但 在 实践 中 ， 
我 们 几乎 总 是 需要 有 一 个 依赖 于 键 码 的 所 有 二 进位 的 散 列 函数 ,以 便 满足 (b)。 

至 今 我 们 已 经 考虑 了 怎样 散 列 一 个 字 的 键 码 。 多 字 的 或 可 变 长 的 键 码 可 以 通 
过 上 述 方法 的 多 精度 扩充 来 处 理 ,但 是 一 般 宜 于 把 几 个 字 组 成 一 个 单个 的 字 , 然 后 
如 上 面 那 样 进行 单个 乘法 或 除法 ,这 样 可 以 提高 速度 。 这 个 组 合 可 以 通过 mod w 
加 法 或 通过 在 一 台 二 进 计算 机 上 的 “ 异 或 "来 完成 ;这 两 个 操作 都 有 这 样 一 个 优点 ， 
即 它 们 都 是 可 道 的 ,也 就 是 ,它们 都 依赖 于 两 个 变 元 的 所 有 二 进位 ,而 且 由 于 异 或 避 
免 了 算术 洲 出 , 它 有 时 是 更 可 取 的 。 然 而 ,这 两 种 操作 是 可 交换 的 ,因此 (X,Y) 和 
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(Y,X) 都 将 散 列 成 相同 的 地 址 ;G.D.Knott 已 经 建议 在 进行 加 法 或 异 或 之 前 作 一 
个 循环 移 位 以 避免 这 个 问题 。 
散 列 ; 个 字符 或 ! 个 字 键 码 开 = zlz…zi 的 一 个 甚至 更 好 的 方法 是 来 计算 
h(K)= (hi(z1) + h(xz2) + + hi(z))mod M (9) 
其 中 每 个 h， 是 一 个 独立 的 散 列 函数 。 由 J.L.Carter 和 M.N.Wegman 于 1977 年 引 
入 的 这 一 思想 , 当 每 个 zx 是 单个 字符 时 特别 有 效 , 因 为 然后 我 们 可 以 使 用 对 于 每 个 
h; 的 一 个 预先 计算 的 数组 。 这 样 的 数组 使 乘法 成 为 诸 无 必要 的 ,而 且 如 条 M 是 2 
的 一 个 乘 寡 ,我 们 通过 以 异 或 代替 加 法 而 避免 (9) 中 的 除法 。 因 此 (9) 肯 定 满 足 性 质 
(a)。 而 且 ,Carter 和 Wegman 证 明了 如 果 h; 是 随机 选择 的 , 则 不 管 输入 数据 如 何 ， 
性 质 (b) 都 将 成 立 (参见 习题 72)。 

已 经 提出 了 许 许多 多 的 散 列 方法 ,但 是 还 没有 证 明 出 这 些 方 法 中 哪 一 个 比 上 面 
叙述 的 简单 的 除法 和 乘法 更 优越 。 关 于 某 些 其 它 方法 及 其 用 于 实际 文件 时 性 能 的 
详细 统计 , 见 林 耀 森 、 囊 师 德 以 及 (M.Dodd) ,CACM 14(1971) ,228 一 239。 

在 已 经 试验 过 的 所 有 其 它 散 列 方法 中 ,也 许 最 有 趣 的 是 一 项 以 代数 编码 理论 为 
基础 的 技术 ;其 思想 类 似 于 上 面 的 除法 方法 ,但 我 们 除 以 一 个 多 项 式 modulo 2 而 不 
是 除 以 一 个 整数 (如 同 在 4.6 节 所 观察 到 的 ,这 个 操作 类 似 于 除法 ,就 如 同 加 法 类 似 
于 蜡 或 那样 )。 对 于 这 个 方法 ,MM 应 该 是 2 的 一 个 乘 方 ,比如 说 , M = 2” ,而且 我 们 
利用 一 个 m 次 多 项 式 P(z)= zx”+ pn_-1X” 二 +… 二 poo 一 个 个 数字 的 二 进 刍 
但 天 = (k,_1°**kiko), 可 以 看 作 是 多 项 式 K(x) 一 k,_1zx” | 十 十 RiZ 十 &0 ,而 且 
利用 多 项 式 算 术 运 算 modulo 2 计算 余 式 

K(x) mod P(z) = h,_ izr™” ++hirzt+ho 
则 hh(K)=(h-1…hiho)，。 如 果 适 当地 选择 P(z), 则 这 个 散 列 函数 即 可 以 保证 
游 免 在 近乎 相等 的 键 码 之 间 的 冲突 。 例 如 ,如 果 n=15,m=10, 且 
P(x)= x t+rxd+zr +rit+r +zrt+l (10) 
则 可 以 证 明 , 每 当 K 和 KK, 是 两 个 不 同 的 在 少 于 七 个 二 进位 位 置 中 互 异 的 键 码 时 ， 
h(K) 不 等 于 h(K,)。( 关 于 这 个 方案 的 进一步 信息 见习 题 7; 当然 它 更 适合 于 以 
硬件 或 微 程序 设计 实现 ,而 不 适合 于 用 软件 实现 。) 

当 调 试 一 个 程序 时 ,使 用 一 个 常数 散 列 孙 数 h(K)=0 通常 很 方便 ,因为 所 有 的 

键 码 都 将 被 存储 在 一 起 ; 稍 后 可 以 换 成 一 个 有 效 的 h(K )。 


通过 “拉链 "解决 冲突 我们 已 经 注意 到 , 某 些 散 列 地 址 由 于 为 多 个 键 码 所 共 
享 ,可 能 要 出 有 麻烦。 解决 这 个 问题 的 也 许 最 显然 的 方法 ,是 保持 M 个 链接 表 ,对 于 
每 个 可 能 的 散 列 码 用 一 个 表 。 每 个 记录 应 包括 一 个 LINK 字段 ,而且 还 将 有 M 个 表 
头 , 比 如 说 以 从 1 一 M 来 进行 编号 。 在 散 列 了 键 码 之 后 ,我 们 只 需 在 号 码 为 h(K) 
+1 的 表 中 进行 顺序 查找 。( 参 见习 题 6.1-2。 这 一 情况 非常 类 似 于 多 重 表 的 插入 
排序 , 即 程序 5.2.1M)。 

38 示 出 了 当 M=9 时 ,对 于 七 个 键 码 的 序列 (这 就 是 挪威 文中 的 数 1 一 7)， 
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K = EN,TO,TRE,FIRE,FEM,SEKS,SYV (11) 
gEAD [1] [sen 
HEAD [2] : SYV 
HEAD []， mm A 
HEAD [4]: 
HEAD [5]: en | A 
HEAD [6:| A | 
HEAD [| A 
HEAD[8]:| A | 
HEAD [9]:| [sexs | A 
图 38 分 开 的 拉链 
这 一 简单 的 拉链 方案 ,这 些 键 码 的 散 列 码 分 别 为 
h(K)+1=3,1,4,1,5,9,2 (12) 


第 一 个 表 有 两 个 元 素 , 而 另外 有 三 个 表 是 空 的 。 

拉链 十 分 快 , 因 为 这 些 表 都 很 得 。 如 果 把 365 人 聚集 在 一 个 房间 里 , 则 大 概 将 
有 许多 对 的 人 有 相同 的 生日 ,但 是 具有 任何 给 定 生 日 的 人 的 平均 数 将 仅仅 是 1! 一 
般 说 来 ,如 果 有 N 个 键 码 和 M 个 表 , 则 表 的 平均 大 小 是 N/M ;于 是 散 列 使 顺序 查 
找 所 需 的 平均 工作 数量 大 约 减 少 了 一 个 因子 M。( 习 题 34 给 出 了 一 个 精确 的 公 
式 。) 

这 个 方法 是 我 们 以 前 讨论 的 技术 的 直截了当 的 组 合 , 所 以 不 需要 描述 对 于 拉链 
散 列 表 的 详细 算法 。 以 键 码 的 顺序 来 保持 个 别 的 表 通 常 是 一 个 好 的 想法 , 它 使 得 揪 
人 和 不 成 功 的 查找 都 能 更 快 地 进行 。 于 是 如 果 我 们 使 表 成 为 递增 的 , 则 图 38 的 TO 
和 FIRE 节点 将 互相 交换 ,而 且 所 有 的 A 链 都 将 被 指向 一 个 空 记录 的 指针 所 代替 ,该 
记录 的 键 码 为 oo (参见 算法 6.1T)。 或 者 ,我 们 可 以 利用 6.1 节 中 讨论 的 “ 自 组 织 
件 " 的 概念 ;把 诸 表 按 各 键 码 最 新 出 现 的 时 间 排 序 ,而 不 是 按键 码 的 值 排 序 。 

为 了 保证 速度 ,我 们 将 乐于 使 M 相当 大 。 但 当 M 很 大 时 ,许多 表 都 将 是 空 的 ， 
而 且 M 个 表 头 的 许多 空间 都 将 浪费 掉 。 这 就 提示 了 另外 一 个 当 记 录 很 小 时 可 用 的 
方法 :我们 可 以 把 表 头 和 记录 的 存储 重 玲 起 来 ,只 提供 M 个 记录 和 M 个 链接 而 不 
是 N 个 记录 和 Mt+ N 个 链接 所 需 的 空间 。 有 时 有 可 能 对 所 有 数据 作 一 趟 扫描 , 找 
出 哪 一 些 表 头 将 被 使 用 ,然后 作 另 一 趟 扫描 把 所 有 的 "溢出 "记录 都 插入 到 空 的 位 置 
上 。 但 是 这 往往 是 不 实际 的 或 不 可 能 的 ,我 们 宁可 用 一 种 每 个 记录 只 处 理 一 次 , 即 
只 在 它 第 一 次 进入 系统 时 处 理 一 次 的 技术 。 下 面 由 F.A.Williams 给 出 的 算法 
[CACM 2,6 (1959 年 6 月 ),21~24] 是 解决 这 个 问题 的 一 种 方便 的 方法 。 


算法 C (拉链 散 列 表 的 查找 和 插入 ) 本 算法 在 一 个 M 节点 的 表 中 查找 一 个 给 
定 的 键 码 K。 如 果 KK 不 在 表 中 , 且 这 个 表 不 满 , 则 插入 天。 
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表 的 诸 节点 ,以 TABLE[ i ] 来 表示 ,0 二 i 达 MM ,而 且 它 们 有 两 种 不 同 的 类 型 , 即 空 
的 和 已 占用 的 。 一 个 已 占用 的 节点 含有 一 个 键 码 字段 KEY[1i] ,一 个 链接 字段 LINK 
[i ,以 及 可 能 还 有 其 它 的 字段 。 

这 个 算法 利用 了 一 个 散 列 函数 h(K), 还 使 用 一 个 辅助 变量 R 来 帮助 寻找 可 用 
空间 。 当 表 空 时 ,R= M+1, 而 当 进 行 插入 时 ,对 于 在 Rj 过 MM 范围 中 的 所 有 j， 
TABLE[ jj 是 已 占用 的 。 约 定 TABLE[0] 总 是 空 的 。 

C1.[ 散 列 ] 置 i< 呈 -h(K)+1。( 现 在 1 委 ; 委 M)。 

C2. [有 一 个 表 吗 ?] 如 果 TABLE[i] 是 空 的 , 则 转 到 C6。( 和 否则 TABLE[1] 已 占 

用 ;我 们 将 考察 在 这 里 开始 的 已 占用 节点 的 表 列 )。 

C3.| 比较 ] 如 果 KK = KEY[1i], 则 这 个 算法 成 功 地 结束 。 

C4.| 进 到 下 一 个 ] 如 果 LINK[ i ] 关 0, 则 置 ND | 并 转 回 到 步骤 C3。 

C5. | 找 空 节点 」 (这 次 查找 不 成 功 ,要 找 表 中 的 一 个 空位 置 ,)R 减 值 一 次 或 多 

次 直到 找到 使 得 TABLE[ R |] 为 空 的 RR 值 为 止 。 站 R=0, 则 这 个 算法 以 
复出 (没有 空 节 上 点) 结束; 否则 置 LINK[ 1] 一 R,i<-RR。 





人 
(C3. 比较 一 C4. 进 到 下 一 个 C5. 找 空 节 点 


K=KEYT[i] 
成 功 

















R=0 
游 出 





图 39 拉链 散 列 表 的 查找 和 插入 


. [插入 新 键 码 ] 标记 TABLE[ i] 为 一 个 已 占用 的 
并 作 KEY[i KK 和 LINK[i]<0。 和 TABrgD]: syv [A 


这 个 算法 允许 若干 表 结 合 起 来 ,使 得 在 诸 记 录 插 入 TABrE A]: Ew | A 
到 表 中 之 后 ,就 不 必 移 动 了 。 例 如 , 见 图 40, 其 中 SEKS ret A- 
出 现在 含有 TO 和 FIRE 的 表 中 ,因为 后 者 已 经 插入 到 位 
TABLE[6]: | 
置 9 上。 TABLE [7] : 
为 了 看 看 这 个 算法 同 这 一 章 的 其 它 算法 比较 时 情况 ThBpLE [8]. 
如 何 ,我 们 可 以 写 出 下 列 MIX 程序 。 以 下 分 析 指 出 ,已 占 TABLE [9]: 
用 单元 的 表 一 般 很 短 ,而 且 程 序 设计 已 经 考虑 到 这 一 点 。 


程序 C( 拉 链 散 列表 的 查找 和 插入 ) 为 方便 起 见 ， 








图 40 结合 起 来 的 拉链 
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假定 键 码 仅 有 三 个 字 节 长 , 且 节 点 被 表示 如 下 : 


空 太 点 
Ty 
有 E 


假定 表 的 大 小 M 是 质数 ;TABLE[ i] 被 存储 在 TABLE + i 之 中 ,rIl 二 i,rA 二 KK;rI2 二 
LINK[ 7 和 /或 R。 


01 KEY EQU 3:5 

02 LINK EQU 0:2 

03 STARTLDX KK 1 CI. 散 殉 

04 ENTA 0 1 

05 DIV =M= 1 

06 STX x< 十 1(0:2) 1 

07 RNT1 * 1 i<—h(K) 

08 INC1 1 1 +1 

09 LDA K 1 

10 LD2 TABLE,1(LINK) 1 C2. 有 一 个 表 舍 ? 

11 J2N 6F 1 如 果 TABLE[ i] 为 空 则 转 到 C6 
12 CMPA TABLE,1(KEY) A C3. 比 蒜 

13 JE € SUCCESS A 如 果 KK = KEY[i], 则 转 出 
14 J2Z 5F A-S1 如 果 LINK[ i] = 0, 则 转 到 C5 
15 4H ENT1 0,2 C-1 C4. 进 到 下 一 个 

16 CMPA TABLE,1(KEY) C-1 C3. 比 梦 

17 JE SUCCESS C-1 如 果 K = KEY[ i ] 则 转 忠 
18 LD2 TABLE,1(LINK) C-1-S2 

19 J2NZ 4B C-1-S2 如 果 LINK[i] 关 0, 则 前 进 
20 5H LD2 R A-S C5. 找 空 芳 点 

21 DEC2 1 T R<—S<1 

22 LDX TABLE,?2 T 

23 JXNN x—2 T 午 复 直到 TABLE[ R ] 为 空 
24 J2Z OVERFLOW A-S 如 果 未 剩 下 空 节点 则 转 出 
25 ST2 TABLE,1(LINK) A-S LINK[ i |<—R 

26 ENT1 0,2 A-S i<—R 
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27 ST2 RR A-S 修改 内 存 中 的 R 

28 6H STZ TABLE,1(LINK) 1-S C6. 插 人 新 的 键 码 

29 STR TASBLE,1(KEY) 1-S KEY[ ;<K | 
这 个 程序 的 运行 时 间 依 赖 于 


C = 查找 时 所 探查 的 表 的 项 数 

4A=[ 初 始 探查 发 现 一 个 已 占用 的 节点 ] 

S=[ 查 找 成 功 ] 

下 = 寻求 可 用 空间 时 所 探查 的 表 项 数 

这 里 S$= Sl1+ S2, 其 中 如 果 第 一 次 试验 成 功 则 S1=1。 程 序 C 的 查找 阶段 总 
共 的 运行 时 间 是 (7C+2A +17-3S+2S1)w, 而 当 S=0 时 一 个 新 键 码 的 插入 还 需 
花费 附加 的 (8A +4T+4)xu。 

假设 这 个 程序 开始 时 表 中 有 N 个 键 码 ,而 且 设 

a 二 N/M = 这 个 表 的 负载 因子 (14) 

如 果 散 列 函数 是 随机 的 , 则 在 一 次 不 成 功 的 查找 中 A 的 平均 值 显然 是 w, 而 且 习 题 
39 证 明 在 一 次 不 成 功 的 查找 中 C 的 平均 值 是 


1+ 2 _1_2N\~、 
Cw =1+ 才 ((1+ 褒 | 1 1+ 


e*—1—2a 


4 
于 是 , 当 这 个 表 为 半 满 时 ,在 一 次 不 成 功 的 查找 当中 所 作 探 查 的 平均 次 数 大 约 是 
十 (e+2)s:1.18; 甚 至 当 这 个 表 快要 完全 满 时 ,在 插 和 人 最 后 的 项 之 前 所 作 探 查 的 平 


(15) 


均 次 数 ,将 仅仅 大 约 是 子 (@ +1)~2.10。 如 同 在 习题 40 中 所 证 明 的 那样 ,标准 差 


也 小 。 这 些 统计 证 明 , 当 散 列 函 数 是 随机 的 时 ,即使 算法 偶尔 允许 诸 表 结合 起 来 ,这 
些 表 仍 很 短 。 如 果 散 列 函 数 是 坏 的 或 我 们 极 不 走运 ,当然 C 可 以 像 N 那样 大 。 

在 一 次 成 功 的 查找 中 ,我 们 总 有 A= 1。 在 一 次 成 功 的 查找 期 间 探查 的 平均 次 
数 ,可 以 计算 如 下 : 若 假定 每 个 键 码 都 同等 可 能 , 则 求 C+A 对 前 N 次 不 成 功 的 查找 
之 和 并 除 以 N。 于 是 我 们 得 到 


1 ,kk\ 1 M 2Y 2NW1LIN-1l1 
ON (C+Mm)= 1+ 二 (1+ I- MM) 4 ~ 
| +e -1l-20 a (16) 
8a 4 


作为 在 一 次 随机 的 成 功 查找 中 探查 的 平均 次 数 。 甚 至 从 一 个 满 的 表 中 找 出 一 个 项 ， 
平均 也 才 仅 仅 需要 1.80 次 探查 ! 类 似 地 (见习 题 42) ,S1 的 平均 值 是 


S1V = 1- 3((N- DM)~1- Ta (17) 
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乍 一 看 去 ,步骤 C5 可 能 显得 很 低 效 ,因为 它 要 顺序 地 查找 一 个 空位 置 。 但 是 
实际 上 当 一 个 表 正 被 构造 时 ,在 步骤 C5 中 所 作 的 表 探 查 的 总 数 决 不 超过 表 中 的 项 
目 数 ;所 以 我 们 每 作 一 次 插 人 平均 至 多 需要 一 次 探查 。 习 题 41 证 明 , 在 一 次 随机 的 
不 成 功 的 查找 中 工 近 似 于 ae*。 

有 可 能 对 算法 C 进行 修改 ,使 得 任何 两 个 表 都 不 结合 在 一 起 ,但 是 这 样 一 来 记 
录 训 要 搬家 了 。 例 如 ,考虑 在 我 们 刚 要 把 SEKS 插入 到 位 置 9 之 前 ,图 40 的 状况 ;为 
了 保持 表 是 分 开 的 ,必须 移动 FIRE, 而 且 为 了 这 一 目的 ,还 要 发 现 哪个 节点 是 指向 
FIRE 的 。 如 同 D.E. Ferguson 所 建议 的 ,通过 散 列 FIRE 和 往 下 查找 它 的 表 , 我 们 无 
家 提供 两 路 链接 就 能 解决 这 个 问题 ,因为 这 些 表 都 是 短 的 ;习题 34 证 明 , 当 诸 表 不 
相 结 合 时 ,平均 的 探查 次 数 ,减少 成 


2 

CN= 1+AN HH 、 1+ 拖 (不 成 功 的 查找 ) (18) 
_， N-1 a 

Cv= 1+ 方 和 心 1+ (成 功 的 查找 ) (19) 





对 于 (15) 和 (16) 这 个 改进 尚 不 足以 构成 改变 这 个 算法 的 理由 。 

万 一 方面 ,Butler Lampson 已 经 发 现 , 如 果 我 们 避免 把 这 些 表 结 合 在 一 起 , 则 在 
使 用 拉链 方法 时 ,大 多 数 用 于 链接 的 空间 都 可 以 节省 。 这 导致 了 在 习题 13 中 讨论 
的 一 个 有 趣 的 算法 。Lampson 的 方法 在 每 一 项 中 引入 一 个 标志 位 。 因 此 使 得 在 一 
次 不 成 功 的 查找 中 所 需 平 均 探查 数 稍微 减少 ,从 (18) 减 少 成 为 


N 
[1-3 ea (18’) 


当 N > M 时 ,可 以 使 用 分 开 的 拉链 ,所 以 在 这 种 情况 下 洲 出 不 是 一 个 严重 的 问 
题 。 当 诸 表 如 同 在 图 40 中 和 算法 C 中 那样 结合 起 来 时 ,我 们 可 以 把 额外 的 一 些 项 
目 链接 成 一 个 辅助 的 存储 池 :L.Guibas 已 经 证 明 , 为 插入 第 (M + 工 +1) 项 需 作 的 探 


查 平均 次 数 为 | LI2M+ 玫 ]((1+21MON- 1) + 112。 然 而 ,通常 喜欢 使 用 把 头 一 个 


冲突 的 元 素 放 进 一 个 辅助 存储 区 域 的 另 一 方案 ,并 且 仅 当 这 个 辅助 区 域 已 经 满 时 才 
允许 诸 表 结合 在 一 起 ;见习 题 43。 

以 开 式 寻 址 法 "解决 冲突 ”解决 冲突 的 另 一 个 方法 ,是 完全 撤销 链 ,简单 地 逐 
个 考察 表 的 各 项 ,直到 或 者 发 现 键 码 K 或 者 发 现 一 个 空 的 位 置 。 这 个 思想 就 是 确 
定 茶 种 规则 ,通过 它 ,每 个 键 码 K 确定 一 个 “探查 序列 ”, 即 表 中 的 一 系列 位 置 ,每 当 
要 插入 或 查 出 kK 时 这 些 位置 即 被 探查 。 如 果 我 们 使 用 由 K 确定 的 探查 序列 ,在 查 
找 天 时, 遇 到 一 个 空缺 未 用 的 位 置 , 则 可 以 得 出 结论 ,多 不 在 表 中 ,因为 在 每 次 处 理 
K 时 用 的 是 同一 个 探查 序列 。 此 类 通用 的 方法 被 W.W .Peterson 称 作 开 式 寻 址 法 
[IBM J. Research & Development 1(1957) ,130 一 146] 。 
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称 为 线性 探查 的 最 简单 的 开 式 寻 址 方案 ,使 用 如 同 下 列 算法 中 那样 的 循环 探查 
序列 


h(K),A(K)—1,…,0,M-1,M—2,…,hA(K)+1 (20) 


算法 工 (线性 探查 和 插入 ) 这 个 算法 在 有 M 个 节点 的 表 中 寻找 一 个 给 定 的 键 
码 K。 如 果 K 不 在 表 中 且 表 不 满 , 则 插 人 天。 
对 于 0 委 ;< M ,以 TRBLE[; ] ,表示 表 的 节点 ,它们 有 两 种 不 同 的 类 型 , 即 空 的 和 
已 占用 的 。 一 个 已 占用 的 节点 包含 称 为 KEY[ i |] 的 一 个 键 码 , 可 能 还 有 其 它 的 字段 。 
一 个 辅助 变量 N 用 以 记 住 占 用 了 多 少 个 节点 ;把 N 看 做 是 表 的 一 部 分 ,而 且 当 插 
人 一 个 新 键 码 时 ,NN 的 值 增 1。 
本 算法 利用 一 个 散 列 函数 h(K), 并 使 用 线性 探查 序列 (20) 查 表 。 对 该 序列 的 
修改 将 在 下 面 讨论 。 
L1.[ 散 列 ] 置 i 一 h(K)。( 现 在 0 三 i<M ) 
L2. [比较 ] 如 果 TABLE|[ 1 为 空 , 则 转 到 L4。 和 否则 如 果 KEY|Li] = K, 则 这 个 算 
法 成 功 地 结束 。 
L3. [ 进 到 下 一 个 ] 置 ie; 一 1; 如 果 现 在 i<0, 则 置 i 一 i+ AM。 转 回 到 步骤 
L2 。 
L4. [插入 ] (查找 是 不 成 功 的 ) 如 果 N= M -1, 则 算法 以 滋 出 结束 。( 这 个 算 
法 认为 当 N=M-1 时 ,而 不 是 当 N= M 时 表 是 满 的 ,见习 题 15)。 否 则 
置 NN+1, 标 记 TABLE|1i |] 为 已 占用 的 ,日 置 KkEY[i]<-K。 | 
图 41 示 出 , 当 分 别 使 用 散 列 码 2,7,1,8,2,8,1, 通 过 算法 世 揪 和 人 七 个 示例 性 键 
码 (11) 时 发 生 的 情况 ;最 后 三 个 键 码 , FEM、SEKS 和 SYV, 已 经 从 它们 开始 的 位 置 
h(K ) 被 转移 了 。 








co -J Om 上 DD 一 OO 


图 41 线性 开 式 寻 址 法 


程序 L (线性 探查 和 插入 ) ”这 个 程序 处 理 全 字 长 的 键 码 ;但 不 允许 值 为 0 的 
键 码 ,因为 0 被 用 作 标 志 表 中 的 一 个 空位 置 。( 或 者 ,我 们 可 以 要 求 键 码 是 非 负 的 ， 
让 空位 含 -1)。 假 定 表 的 大 小 M 是 素数 ,而且 对 于 0 过 i< M 把 TABLE[1i | 存在 单元 
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TABLE + i 中 。 为 了 加 快 内 循环 ,假定 单元 TABLE - 1 包含 0。 假 定单 元 VACANCIES 包 
含 值 M-1-N; 且 rtrA 寺 K ,rl1l 二 i。 

为 了 加 速 这 个 程序 的 内 循环 ,已 经 从 循环 中 撤销 了 测试 “i<0”, 而 仅仅 保留 了 
步骤 L2 和 L3 的 必要 部 分 。 查 找 阶段 的 总 共 运 行 时 间 为 (7C+9E+21-4S)w, 而 
在 不 成 功 查 找 之 后 的 插入 额外 增加 8u。 


01 STARTLDX KK 1 L1. 散 玖 

02 ENTA 0 1 

03 DIV =M= 1 

04 STX x +1(0:2) 1 

05 ENT1 x* 1 i<—h(K) 

06 LDA K 1 

07 JMP 2F 1 

08 8H INC1 M+1 E 上 3. 刻 行 到 下 一 个 

09 3H DEC1 1 C+E-1 i<i—1 

10 2H CMPA TABLE,1 C+ L2,. 外 术 

11 JE SUCCESS C+E 如 果 KK = KEY[i ] 则 转 出 

1 LDX TABLF,1 C+E-S 

13 JXNZ 3B Ct-S 如 果 TABLE[ i] 非 空 , 则 转 L3 
14 JIN 8B E+1 一 S 如 果 i1= 一 1, 则 以 i 一 M 转 1L3 
15 4H LDX VACANCIFS 1 一 S L4. 播 人 

16 JXZ OVERFLOW 1 一 S 如 果 NN=M 一 1, 则 溢出 ,并 转 出 
jf DECX 1 1—S 

18 STX VACANCIES 1-—S NN 增加 1 

19 STR TABLE,1 1-—S TABLE[i1|<—K | 


如 同 在 程序 C 中 那样 ,变量 C 表示 探查 的 次 数 ,S 指出 这 次 查找 是 否 成 功 。 我 们 可 
以 忽略 变量 王 , 它 仅 当 对 TABLE[ -1] 已 经 作 了 一 次 假 的 探查 时 为 1, 因 为 它 的 平均 
值 是 (C -1)AM。 

线性 探查 的 经 验 表 明 ,在 表 开 始 变 满 之 前 ,本 算法 工作 得 十 分 好 ;但 是 这 个 过 程 
终于 减 慢 下 来 ,而 且 长 时 间 拖 拉 的 查找 逐渐 地 频繁 起 来 。 这 只 要 考察 M= 19 和 N 
=9 的 假设 的 散 列 表 , 便 可 以 明白 这 一 特性 的 原因 . 


lI0 11 12 13 14 S 16 Li 18 






磁带 阴影 的 方 格 表示 已 占用 的 位 置 。 有 待 插入 到 表 中 的 下 一 个 键 码 K 将 进入 
到 十 个 空 的 空间 之 一 ,但 是 这 些 空位 并 不 是 同等 可 能 的 ;事实 上 ,如 果 11<h(K) 过 
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15,K 将 被 插入 到 位 置 11 中 ,同时 仅 当 hh(K)=8 时 它 才 进入 到 位 置 8。 因 此 位 置 
11 的 可 能 性 ,5 倍 于 位 置 8; 长 的 表 列 倾向 于 变 得 更 长 。 

这 个 现象 本 身 不 足以 看 成 是 线性 探查 的 一 个 相对 拙劣 的 特性 ,因为 在 算法 C 中 
也 出 现 类 似 的 情况 。( 一 个 长 度 为 4 的 表 列 在 算法 C 下 ,其 增长 的 可 能 性 是 长 度 为 
1 的 表 列 的 4 倍 )。 当 在 (21) 中 像 4 或 16 这 样 的 单元 被 填 入 内 容 时 ,真正 的 问题 出 
现 了 ;于 是 两 个 分 开 的 表 列 组 合 起 来 ,而 在 算法 C 中 的 表 列 一 次 决 不 增长 一 步 以 上 。 
因而 , 当 NN 趋 于 M 时 ,线性 探查 的 性 能 迅速 退化 。 

我 们 将 在 这 一 节 的 稍 后 证 明 , 算 法 L 所 需要 的 平均 探查 次 数 近似 于 





cy~ 寺 1+ (Ti) ) (不 成 功 的 查找 ) (22) 





Cvm 立 [1+ (成 功 的 查找 ) (23) 


其 中 a = N/M 是 该 表 的 负载 因子 。 所 以 当 表 的 满载 程度 低 于 75% 时 ,即使 程序 C 
处 理 的 是 不 切实 际 地 短 的 键 码 ,程序 L 仍然 几乎 和 程序 C 一 样 快 。 另 一 方面 , 当 a 
趋 于 工时 ,对 于 程序 工 我 们 可 以 作 的 最 好 的 评价 是 , 它 缓 慢 但 稳当 地 运行 着 。 事 实 
上 , 当 N=M-1 时 ,在 表 中 仅 有 一 个 空位 置 , 所 以 在 一 次 不 成 功 的 查找 中 平均 的 探 
查 次 数 是 (M +1)/2; 我 们 也 将 证 明 当 表 满 时 ,在 一 次 成 功 的 查找 中 平均 的 探查 次 数 
近似 于 vV rAM/8 。 

当 表 快 满 时 ,堆积 现象 使 线性 探查 变 得 代价 高 昂 ,而 如 果 连 续 的 键 码 值 |K，,K 
+1,K+2,…| 出 现 的 可 能 性 很 大 , 则 使 用 除法 散 列 更 加 剧 了 这 种 堆积 现象 ,因为 这 
些 键 码 将 有 连续 的 散 列 码 。 乘 法 散 列 将 邻 人 满意 地 破坏 这 种 堆积 现象 。 

防止 连续 散 列 码 问 题 的 另 一 个 方法 是 在 步骤 L3 中 置 i<-i 一 c, 而 不 是 i<i 一 
1。c 为 任何 正 值 都 行 , 只 要 它 与 M 互 素 ,因为 在 这 种 情况 下 ,探查 序列 仍 将 考察 表 
中 每 一 个 位 置 。 由 于 对 于 i<0 的 测试 ,这 样 一 种 变化 将 使 得 程序 L 稍微 慢 些 。 减 
c 而 不 是 减 1 并 不 改变 堆积 现象 ,因为 距离 为 c 的 记录 组 集 仍 将 形成 ;等 式 (22) 和 
(23) 仍 适用 ,但 是 连续 的 键 码 | 尺 ,K+1,KK+2,…| 的 出 现 现在 实际 上 是 一 种 帮助 ， 
而 不 是 一 个 障碍 。 

尽管 c 的 一 个 固定 值 并 不 减少 堆积 现象 ,但 通过 命 c 依赖 于 ,我们 可 以 很 好 
地 改进 这 一 情况 ! 这 一 思想 导致 了 对 算法 L 的 一 项 重要 的 修改 ,这 是 由 Guy de Bal- 
bine 首先 发 现 的 LPh. DD. thesis, Calif. Inst. of Technology (1968),149~150]。 

算法 D (使 用 两 次 散 列 的 开 式 寻 址 法 ) 这 个 算法 和 算法 L 几乎 一 样 ,但 它 以 
稍 答 不 同 的 方式 ,通过 使 用 两 个 散 列 郴 数 h1(K) 和 hs,(K ) 来 探查 表 。 和 通常 一 样 ， 
hi( 开 ) 产 生 0 与 M-1 之 间 ( 含 0 和 M=-1) 的 一 个 值 ;但 h,(K) 必 须 产生 与 M 互 
素 的 I 与 M-1 之 间 的 一 个 值 (例如 ,如果 M 是 素数 , 则 hh,(K) 可 以 是 1 和 M-1 
之 间 的 任何 值 (包括 1 和 M-1 在 内 ); 或 者 如 果 M=27, 则 72( 民 ) 可 以 是 1 和 2 
-1 之 间 的 任何 奇数 值 )。 
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D1 .|[ 第 一 次 散 列 ] 置 i<—hi(K)。 

D2. | 第 一 次 探查 ] 如 果 TABLE[i] 是 空 的 , 则 转 到 D6。 否则 ,如 果 KEY[i]= 
K , 则 算法 成 功 地 结束 。 

D3.[ 第 二 次 散 列 ] 置 ch,(K )。 

D4.[ 前 进 到 下 一 个 ] 置 ;<z- ci; 如果 现在 ;<0, 则 置 ;< + M ，。 

DS. [比较 ] 如 果 TABLE[i] 是 空 的 , 则 转 到 D6。 否则 如 果 KEY[i] = 尺 , 则 这 个 
算法 成 功 地 结束 。 否 则 转 回 D4。 

D6. [插入] 如 果 N= M 一 1, 则 这 个 算法 以 洲 出 结束 。 否 则 置 N<-N+1, 标 
志 TABLE| i 已 占用 , 且 置 KkEY[i]< 一 K。 | 


关于 计算 h,(K) 的 若干 可 能 性 已 被 提出 。 如 果 M 是 素数 , 且 hi(K)=K mod M ， 
则 我 们 可 以 设 h,(K)=1+(K mod (M 一 1)); 但 由 于 M-1 是 偶数 ,因而 命 
ha(K)=1+(K mod (M 一 2)) 将 更 好 。 这 提示 选择 M 使 得 M 和 M 一 2 好像 1021 和 
1019 那样 是 “ 挛 生 素数 ”。 另 外 ,我 们 可 以 置 h,(K)=1+ (LK/Mj」 mod (M -2)), 因 
为 商 |L K/M | 作为 计算 hi(K ) 的 副产品 ,可 在 一 个 寄存 器 中 得 到 。 

如 林 M = 2”, 且 我 们 正在 使 用 乘法 散 列 , 则 只 和 需 左 移 mx 个 以 上 的 二 进位 和 
“或 "上 一 个 1, 即 可 计算 出 h,(K), 于 是 代码 序列 (5) 之 后 应 接 上 


ENTA 0 清 rA 
SLB mm rAX 左 移 mx 位 (24) 
OR =1= rA<—rAVl1 


这 要 比 除法 方法 更 快 些 。 
在 上 面 提议 的 每 一 项 技术 当中 ,在 下 述 意义 下 hi(K) 和 h,(K) 是 “独立 的 ”, 即 
不 同 的 键 码 对 于 hl 和 h, 将 有 相同 的 值 的 概率 是 1/M? 而 不 是 1/M 。 经 验 测试 表 
明 ,具有 独立 的 散 列 函数 的 算法 D 的 特性 ,基本 上 也 就 同 当 键 码 随机 地 插入 到 表 中 
时 所 需要 的 探查 次 数 无 异 ;实际 上 没有 如 同 算法 LL 中 那样 的 “拥挤 ”或 “堆积 ”。 
如 同 Gary Knott 于 1968 年 所 建议 的 那样 ,也 有 可 能 让 h,(K ) 依 赖 于 h1(K); 
例如 ,如 果 M 是 素数 , 则 我 们 可 以 命 
1 如 果 h(K)=0 
ha(K) = . -hi(K) 如 果 h(K)>0 
这 将 比 作 男 一 个 除法 更 快 ,但 是 我 们 将 看 到 , 它 却 引 起 一 定数 量 的 二 次 堆积 ,因为 增 
加 了 两 个 或 更 多 个 键 码 走 同一 条 通路 的 机 会 ,因此 需要 稍 多 些 探查 。 以 下 导出 的 公 
式 ,可 用 来 确定 在 散 列 时 所 获得 的 好 处 ,是 否 超过 探查 时 间 上 的 损失 。 
算法 L 和 DD 是 非常 类 似 的 ,但 是 也 还 有 一 定 的 差别 ,因此 比较 它们 相应 的 MIX 
程序 的 运行 时 间 是 有 益 的 。 
程序 D (使 用 两 次 散 列 的 开 式 寻 址 法 ) 由 于 这 个 程序 大 体 上 很 类 似 于 程序 L， 
因此 就 不 加 注释 。rI2 三 c 一 1。 
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(25) 


01 START LDX Kk 1 15 3H DEC1 1,2 C—1 
02 ENTA 0 1 16 JINN x*+2 C-1 
03 DIV =M= 1 17 INC1 M B 

04 STX x +1(0:2) 1 18 CMPA TABLE,1 C—1 
05 ENT1 =* 1 19 JE SUCCESS C-—1 
06 LDX TABLE,1 1 20 LDX TABLE,1 C—-1—S2 
07 CMPX KK 1 21 JXNZ 3B C—-1—S2 
08 JE SUCCESS \] 22 4H LDX VACANCIES 1-S 
09 JXZ 4F 1—-S1 23 JXZ OVERFLOW 1 一 S 
10 SRAX 5 A-S1 24 DECX 1 1 一 S 
11 DIV =M-2= A-Sl 25 STX VACANCIES 1—S 
12 STX x +1(0:2) A-S1 26 LDA K 1 一 S 
13 ENT2 A-S1l1 27 STR TABLE,1 1-S | 
14 LDA KK A-Sl 


在 这 个 程序 中 的 频率 计数 A,C,S1,S2, 有 与 上 面 程序 C 中 类 似 的 解释 。 另 一 个 变 
量 B 平均 将 是 (C - 1)/2。( 如 果 我 们 限制 ha,(K ) 的 范围 为 ,比如 说 ,1 三 h,(K) 达 
M/2, 则 B 大 约 将 仅仅 是 (C -1)/4; 速 度 的 这 一 提高 大 约 将 不 足 于 弥补 在 探查 次 数 
方面 的 显著 增加 。) 当 在 这 个 表 中 有 N = aM 个 键 码 时 ,在 一 次 不 成 功 的 查找 中 ,A 
的 平均 值 当然 是 a ,而 在 一 次 成 功 的 查找 中 A =1。 如 同 在 算法 C 中 那样 ,在 一 次 成 


功 的 查找 中 S1 的 平均 值 是 1- 六 ((N -1)/M)~1 -让 a。 探 查 的 平均 次 数 难以 精 


确 地 确定 ,但 经 验 测试 证 明 以 下 导出 的 公式 同一 致 探查 ”相当 符合 , 即 当 及 ,(K ) 和 
h,(K ) 独 立时 ,有 








CN = 二 和 (1- ao) (不 成 功 的 查找 ) (26) 
Cy = (Hun Bow)s-arln(l- a) ”( 成 功 的 查找 ) (27) 
当 h,(K) 如 同 在 (25) 中 那样 依赖 于 h1(K) 时 ,二 次 堆积 使 这 些 公式 增加 到 
CN = - 1 + 下 Mi 一 五 M+I-N 十 O(M- ) ~ (1 -ao) 一 一 
a—ln(l ~a) (28) 


N _ 
CN =1+ Hy+1 — HMy+ri_n— MFI) - (Hum41 -~ Hui-n)/IN + O(N ') ~ 
1 -ln(1 -a) -六 (29) 
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(见习 题 44) 。 注 意 , 随 着 表 变 满 , 即 当 N = M 时 ,Cw 的 这 些 值 分 别 趋向 于 Huw, - 
1 和 H+1 十; 这 比 我 们 在 算法 L 中 所 发 现 的 更 好 些 ,但 不 如 拉链 方法 那样 好 。 


由 于 每 次 探查 花费 的 时 间 比 算法 L 稍 少 , 故 双 散 列 仅 当 表 变 满 时 才 有 利 。 
42 比较 了 程序 L、 程 序 DD 以 及 修改 后 的 程序 D 的 平均 运行 时 间 ,修改 后 的 程序 D 所 
含 二 次 堆积 ,并 以 下 列 三 条 指令 
ENN2 1-M,l1 c<— MD- 
JINZ x +2 (30) 
ENT2 0 如 果 i=0 则 c 一 1 
来 代替 行 10 一 13 中 hs(K ) 的 相当 慢 的 计算 。 程 序 D 总 共 花 费 8C +19A + B+26 
-13S 一 17S1 时 间 单 位 ;在 一 次 成 功 的 查找 中 (30) 的 修改 大 约 市 省 这 些 时 间 单 位 
中 的 1$(A- S1)=7.$a。 在 这 种 情况 下 ,二 次 堆积 比 独立 的 两 次 散 列 更 为 可 取 。 


60u 


SOu 


-和 2 
BrD_ | -二 -二 -- 
so| 一 二 一 笋 于 
式 (30) 修 改 后 的 程序 D 
1 
0.3 0.4 0.5 0.7 0.9 
负载 因子 a=N/M 





MIX 时 间 
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图 42 通过 三 个 开 式 寻 址 方案 进行 成 功 查 找 的 运行 时 间 


在 一 台 二 进 计算 机 上 ,我 们 可 以 以 另 一 种 方式 来 加 速 a,(K ) 的 计算 ,比如 说 如 
果 M 是 一 个 大 于 512 的 素数 , 则 以 


RND =511 = rA <— IrA mod $12 
STR x +1(0:2) (31) 
ENT2 * c<—-rA+l 


来 代替 行 10 一 13。 这 一 思想 (由 Belll 和 Kaman 提出 ,CACM 13(1970),675 一 677， 
他 们 独立 地 发 现 了 算法 D) 无 需 用 任何 除法 就 避免 了 二 次 堆积 。 
已 经 提出 许多 其 它 的 探查 序列 来 改进 算法 L, 但 看 来 没有 一 个 比 算法 DD 优越 ， 
可 能 习题 20 中 描述 的 方法 除外 。 
通过 使 用 诸 键 码 的 相对 次 序 ,我 们 可 以 把 算法 工 或 了 的 不 成 功 查 找 的 平均 运 
行 时 间 减 少 到 成 功 查 找 的 平均 运行 时 间 ; 参 见习 题 66。 这 个 技术 在 不 成 功 查找 很 
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普遍 的 那些 应 用 中 很 重要 ;例如 , 当 TEX 查找 对 于 它 的 破 折 号 规则 的 例外 情况 时 ， 
就 使 用 这 样 一 个 算法 。 

Brent 的 变形 Richard P. Brent 已 经 发 现 了 修改 算法 DD 的 一 个 方法 ,使 得 当 表 
变 满 时 平均 的 成 功 查 找 时 间 保 持 有 界 。 他 的 方法 [CACM 16 (1973) ,10S$ 一 109] 是 
以 这 样 一 个 事实 为 基础 的 , 即 在 许多 应 用 中 ,成 功 的 查找 比 揪 人 要 频繁 得 多 ;因此 ， 
他 建议 在 插入 一 项 目 时 ,多 做 一 些 工作 ,包括 移动 表 中 的 记录 ,以 便 减少 预期 的 查找 
时 间 。 

例如 ,图 43 示 出 了 在 一 个 典型 的 PL/I 过 程 中 ,每 个 标识 符 真 正 被 查 到 的 次 数 。 
这 一 思想 指出 ,使 用 一 个 散 列表 记 住 变量 名 字 的 PL/I 编译 程序 ,将 查找 许多 名 字 五 
次 以 上 ,但 插入 只 一 次 。 类 似 地 ,Bell 和 Kaman 发 现 ,一 个 COBOL 编译 程序 在 编译 
一 个 程序 时 ,使 用 它 的 符号 表 算 法 10988 次 ,但 只 对 该 表 作 了 735 次 插入 ;就 是 每 作 
一 次 不 成 功 的 查找 平均 大 约 要 作 14 次 成 功 的 查找 。 有 时 一 个 表 实 际 上 仅 被 建立 一 
次 (例如 ,在 一 个 汇编 程序 中 的 符号 操作 码 表 ) ,而 此 后 纯粹 用 作 检 索 。 


25 


20 








到 到 
EH 上 


漳 遇 和 和 间 
殖 吕 外 EE 
冲 呈 吕 
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图 43 ”一 个 编译 程序 典型 地 查找 变量 名 的 次 数 , 诸 名 字 按 照 它 们 
头 一 次 出 现 的 次 序 自 左 到 右 地 列 出 
Brent 的 思想 是 把 算法 D 中 的 插入 过 程 改变 如 下 。 假 设 一 次 不 成 功 的 查找 要 探 
查 单 元 po,p1,…p, 1,pi;, 其 中 p= (hi(K) 一 jh,(K))mod M, 且 TABLE[ p,] 为 空 。 
如 果 ;二 1, 则 我 们 像 通 常 那样 把 KK 插入 到 位 置 p, 中 ;但 如 果 1 宇 2, 则 计算 cv = 
h,(Ko), 其 中 Ko 二 KEY| poj, 而 且 看 TABLE| ( po 一 eB mod M | 是 否 为 空 。 如 果 为 
空 , 则 置 它 为 TABLE| po], 而 后 把 K 插入 到 位 置 po 中 ,这 增多 了 一 步 对 于 K, 的 查找 
时 间 ,但 它 减 少 了 :之 2 步 对 于 K 的 查找 时 间 , 所 以 结果 还 是 改进 了 。 类 似 地 ,如 果 
TABLE[( po 一 co) mod Mj] 是 已 占用 的 ,而 且 1 之 3, 则 我 们 尝试 BBLE[ (po 一 2c0) mod M ]; 
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如 果 这 也 是 满 的 , 则 计算 cj = hs(KEY[ p1]) 和 试验 TABLEL (pi 一 c1) mod Mj] ;等 等 。 
一 般 地 说 , 命 c = hs (KEY[ p;]) 且 pj,n = 二 (pp; 一 kc;) mod M; 如 果 我 们 发 现 TABLE 
[ p; ,1 对 于 使 得 ; +k<r 的 所 有 下 标 ; 和 是 已 占用 的 ,而 且 如 果 :之 "+1, 则 考察 
TABLE[ po , ], TABLEL pi1 ,1],…, TABLE[ p,_1,1]。 如 果 头 一 个 空位 出 现 于 位 置 
pj;,:-j; 处 , 则 我 们 就 置 TABLE[ p;,,- ;1<-TABLE| pj;] ,而 且 把 K 插入 位 置 p; 中 。 

Brent 的 分 析 指 出 ,正如 后 面 的 图 44 中 所 示 的 那样 ,每 次 成 功 的 查找 的 平均 探 
查 数 是 减少 了 , 极 大 值 大 约 为 2.49。 

Brent 的 变形 并 不 减少 在 不 成 功 查 找 中 探查 的 次 数 1 +1; 它 保持 在 等 式 (26) 所 


指出 的 水 平 , 当 表 满 时 , 趋 于 方 C(M + 1)。 每 次 插入 需要 计算 的 平均 次 数 hs 是 a? + 
5+ 二 ao6+…, 按 照 Brent 的 分 析 , 最 终 趋 于 9(V 隐 ); 而 且 在 判断 如 何 来 进行 插 人 


时 额外 被 探查 的 表 中 位 置 数 大 约 是 a 二 Qa 十 Sa + ast 


E.G. Mallach[Comp.J.20 (1977),137 一 140] 已 经 以 Brent 的 变形 的 改进 作 了 
实验 ,而 Gaston H.Gonnet 和 J].Ian Munro 已 经 得 到 了 一 些 进 一 步 的 结果 [SICOMP 
8 (1979) ,463 一 478 | 。 


删 去 ”许多 计算 机 程序 员 都 高 度 地 信任 算法 ,他 们 惊奇 地 发 现 从 散 列 表 删 去 记 
录 的 一 种 显然 的 方式 居然 失效 。 例 如 ,如 果 我 们 想 从 图 41 删 去 键 码 ER, 则 不 能 简单 
地 把 表 中 这 个 位 置 标 成 空 的 ,因为 这 将 使 另 一 个 键 码 FEM 突然 地 被 态 记 ! (回想 一 
下 ,EN 和 FEM 两 者 是 散 列 到 同一 单元 的 。 当 考察 FEM 时 ,我 们 将 发 现 一 个 空 的 位 置 ， 
从 而 表示 一 次 不 成 功 的 查找 。) 由 于 诸 表 的 接合 ,对 于 算法 C 必 出 现 类 似 的 问题 ; 试 
想像 从 图 40 中 删 去 TO 和 FIRE 两 者 。 

一 般 地 说 ,我 们 可 以 通过 置 一 个 特殊 的 代码 值 于 对 应 的 单元 中 来 处 理 删 去 ,使 
得 有 三 类 表 的 项 : 空 的 .已 占用 的 以 及 已 删 去 的 。 当 查找 一 个 键 码 时 ,我 们 将 跳 过 已 
删 去 的 单元 ,就 像 它们 是 已 占用 的 那样 。 如 果 查 找 是 不 成 功 的 , 则 这 个 键 码 可 被 插 
人 到 头 一 个 遇 到 的 删 去 的 或 者 空 的 位 置 中 。 

但 是 这 一 思想 仅 当 删 去 非常 稀少 时 才 是 可 行 的 ,这 是 因为 一 旦 表 的 项 变 为 已 占 
用 的 , 则 它们 就 决 不 再 次 地 变 空 。 在 进行 了 一 长 串 重 复 的 插 人 到 删 去 的 序列 之 后 ， 
所 有 可 用 空间 都 终 将 消失 ,而 且 每 次 不 成 功 的 查找 将 花费 M 个 探查 ! 其 次 每 个 探 
查 的 时 间 将 增加 ,因为 我 们 要 测试 i 是 否 已 经 恢复 成 它 在 步骤 D4 中 的 开始 值 ;而 且 
在 一 次 成 功 的 查找 中 探查 的 次 数 将 趋 于 从 Cy 上 升 到 CN。 

当 正 在 使 用 的 是 线性 探查 ( 即 算法 L) 时 ,如 果 我 们 愿意 对 删 去 做 某 些 额外 工 
作 , 则 在 删 去 时 可 避免 上 述 麻 烦 情况 。 

算法 R (用 线性 探查 实现 删 去 ) 假定 通过 算法 工 已 经 构造 了 一 个 开 式 散 列 
表 ,本 算法 从 一 个 给 定 的 位 置 TABLE|L i] 删 去 记录 。 

R1.[ 弄 空 一 个 单元 ] 标记 TABLE[; 为 空 ,上 且 置 j<-i。 
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R2.[i 减 值 ] 置 i<i 一 1, 如 果 这 使 得 i 成 为 负 的 , 则 置 ?<-z + M 。 

R3. [检查 TABLE[i]] 如 果 TABLE[ i |] 是 空 的 , 则 这 算法 结束 。 否 则 置 rh 
(KEY[ i |] ) ,这 个 键 码 原来 的 散 列 地 址 现在 存在 位 置 i 中 。 如 果 ;ii 委 r< 7) 或 
如 果 ><7J<i 或 1<i 委 (换言之 ,如 果 > 循环 地 位 于 i 和 7 之 间 ), 则 转 回 
到 R2。 

R4. [移动 一 个 记录 ] 置 TABLE| ;|]<TABLE[i|] 并 返回 步骤 R1。 | 


习题 22 表明 这 个 算法 不 引起 性 能 上 的 晓 化 ;换言之 ,在 等 式 (22) 和 (23) 中 预测 
的 平均 探查 次 数 保持 相同 (定理 6.2.2H 中 证 明了 对 于 树 插 和 的 一 个 较 弱 的 结果 )。 
但 是 算法 R 的 正确 性 与 这 样 一 个 事实 密切 相关 , 即 它 是 用 于 线性 探查 的 ,而 且 不 可 
能 有 类 似 的 和 算法 D 一 起 使 用 的 删 去 过 程 。 习 题 64 中 分 析 了 算法 R 的 平均 运行 
时 间 。 

当然 , 当 对 每 个 可 能 的 散 列 值 使 用 分 开 的 表 并 实行 拉链 时 , 删 去 不 会 引起 问题 ， 
因为 它 仅 仅 是 从 一 个 链接 的 线性 表 的 删 去 。 习 题 23 中 讨论 了 算法 C 中 的 删 去 。 

算法 R 可 能 移动 表 中 的 某 些 项 ,但 如 果 有 其 它 某 处 是 指向 这 些 项 的 , 则 这 种 移 
动 是 不 希望 发 生 的 。 通 过 采用 废料 回收 中 使 用 的 某 些 思想 ,有 可 能 有 另外 一 个 删 去 
的 方法 (参见 2.3.5 小 节 ): 对 于 每 个 键 码 我 们 可 以 保持 一 个 "访问 计数 "说 明 有 多少 
其 它 的 键 码 同 它 接触 ;然后 当 某 个 未 占用 单元 的 访问 计数 为 0 时 ,就 有 可 能 把 它 转 
换 成 空 状态 。 为 一 种 方法 是 ,每 当 已 经 累计 有 太 多 的 删 去 的 项 时 ,我 们 可 以 扫 视 整 
个 的 表 ,同时 转换 所 有 未 占用 的 位 置 成 为 空 状态 ,而 后 考察 所 有 剩余 的 键 码 ,为 的 是 
找 出 哪些 未 占用 的 位 置 仍然 需要 “ 删 去 ”状态 。 这 些 过 程 最 初 是 由 TT Gunji 和 E.Go- 
to 提出 的 |J Pttformation Proc 3 (1980) ,1 一 12 |, 它 避免 使 用 浮动 , 且 对 任何 散 列 技 
术 都 有 效 。 


对 算法 的 分 析 了 解 一 个 散 列 方法 的 平均 特性 是 特别 重要 的 ,因为 每 当 进 行 散 
列 时 ,我 们 只 能 依靠 概率 的 法 则 。 这 些 算 法 最 坏 的 情况 几乎 都 不 可 想像 地 坏 , 所 以 
我 们 需要 得 到 保证 :平均 特性 是 很 好 的 。 

在 进行 对 线性 探查 等 等 的 分 析 之 前 ,让 我 们 考虑 这 一 状况 的 非常 近似 的 模型 ， 
即 所 谓 的 均匀 的 散 列 。 在 这 个 由 W.W .Peterson[IBM J. Research 及 Development 1 
(1957) 提出 的 模型 中 ,我 们 假定 每 个 键 码 被 放置 在 这 个 表 中 完全 随机 的 位 置 ,使 得 


N 个 已 占用 单元 及 M-N 个 空 单元 的 | NM ] 种 可 能 的 配置 是 同等 可 能 的 。 这 个 模型 


忽略 一 次 堆积 和 二 次 堆积 的 任何 影响 ; 表 中 每 个 单元 的 占用 基本 上 同 其 它 的 单元 无 
关 。 对 于 这 一 模型 ,为 插入 第 N +1 项 恰恰 需要 7 次 探查 的 概率 是 x -1 个 给 定 的 


单元 已 占用 和 另 一 个 单元 是 空 的 这 样 的 配置 数 , 除 以 [ x 】, 即 
MD—r M 
i = RN 
因此 ,对 于 均匀 的 散 列 的 平均 探查 次 数 是 
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M M 
CN=>rp,=M+l- >'(M+1L1-r)P = 
r=1 r=1 


Mri Duron 


mri- Sa- ms (NY)- 


oo 
AM +1 AM +1 


M+l-M-NIN NT=T NTT， 对 于 1 迄 N< M 


二 瘤 


j= 


(32) 
(在 习题 3.4.2-5 中 我 们 实质 上 曾 解 决 了 同 随机 抽样 相 联 系 的 同一 个 问题 )。 置 a = 
NAM,CAN 的 这 一 精确 公式 近似 地 等 于 
1 
工 一 wa 
这 个 级 数 有 一 种 粗略 的 直观 解释 :我 们 需要 一 次 以 上 的 探查 的 概率 为 w ,二 次 以 上 
的 探查 的 概率 为 ,等 等 。 对 于 一 次 成 功 的 查找 对 应 的 平均 探查 次 数 是 
1 «a 十 1 
CN NR ETY +m) 
N (五 Mill ~ Hy_Nn+1) 二 二 In ] 2 (34) 
如 同上 边 所 说 的 ,广泛 的 测试 表明 ,在 所 有 的 实际 应 用 中 ,具有 两 个 独立 的 散 列 函数 
的 算法 D 的 性 能 实质 上 像 均 匀 散 列 一 样 。 事 实 上 ,在 当 M 一 % 时 的 极限 下 , 双 散 列 
渐进 地 等 价 于 均匀 探查 (参见 习题 70) 。 
这 就 完成 了 对 均匀 探查 的 分 析 。 为 了 研究 线性 探查 和 其 它 类 型 的 解决 冲突 的 
办 法 ,我 们 需要 以 不 同 的 更 现实 的 方式 来 建立 这 个 理论 。 我 们 为 此 目的 采用 的 概率 
模型 假定 :MW 个 可 能 的 “ 散 列 序列 "的 每 一 个 
Q102…QN 0 过 a;< M (35) 
古 同 等 可 能 的 ,其 中 ww 表示 插入 到 表 中 的 第 ; 个 键 码 的 初始 散 列 地 址 。 给 定 任何 特 
殊 的 查找 方法 ,在 一 次 成 功 的 查找 中 探查 的 平均 次 数 将 如 同上 面 那样 以 C、 表示 ; 
假定 这 是 为 求 第 K 个 键 码 所 需要 的 探查 的 平均 次 数 ,平均 是 对 所 有 1 三 k 声 N 取 
的 ,而 且 每 个 键 码 都 是 同等 可 能 的 。 类 似 地 , 当 第 N 个 键 码 被 插入 时 ,所 需要 的 探 
查 的 平均 次 数 将 以 Cn- 1 表示 ,其 中 认为 所 有 的 序列 (35) 是 同等 可 能 的 ;这 是 在 以 表 
中 的 N 一 1 个 元 素 开始 的 不 成 功 的 查找 中 ,探查 的 平均 次 数 。 当 使 用 开 式 寻 址 法 时 


C, = Dc (36) 
于 是 我 们 可 以 像 在 (34) 中 所 做 的 那样 从 其 它 量 导 出 另 一 个 量 。 
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=1+aw+a2+a3s 十 …， (33) 
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严格 地 说 ,即使 在 这 个 更 为 精确 的 模型 中 也 有 两 个 不 足 之 处 。 首 先 ,不 同 的 散 
列 序列 不 是 全 都 同等 可 能 的 ,因为 诸 键 码 本 身 是 不 同 的 。 这 使 得 al = a, 的 概率 稍 
微小 于 1/M ;但 这 个 差别 通常 是 可 忽略 的 ,因为 所 有 可 能 的 键 码 的 集合 相对 于 M 来 
说 是 非常 大 的 (见习 题 24)。 其 次 ,一 个 好 的 散 列 函数 将 利用 典型 数据 的 非 随机 性 ， 
使 它 甚至 不 大 能 有 ai = az; 结 果 ,我 们 对 于 探查 次 数 的 估计 将 是 悲观 的 。 在 这 个 模 
型 中 的 男 一 点 不 精确 性 已 在 图 43 中 指出 : 较 早 出 现 的 键 码 ( 除 某 些 例 外 者 外 ) , 比 后 
来 出 现 的 键 码 更 可 能 被 查找 。 因 此 我 们 对 于 Cw 的 估计 更 加 悲观 ,而 这 些 算法 的 实 
际 运 行情 况 应 该 比 我 们 的 分 析 所 预言 的 稍 好 些 。 

在 打 过 这 些 招呼 之 后 ,我 们 已 经 准备 好 了 对 于 线性 探查 作 一 个 “精确 ”的 分 析 *。 
设 f(M,NN) 是 在 算法 L 插入 了 诸 键 码 之 后 ,使 得 表 的 位 置 0 成 为 空 的 散 列 序列 
(35) 的 个 数 。 线 性 探查 的 循环 对 称 性 意味 着 位 置 0 为 空 的 可 能 性 恰 如 其 它 位 置 一 
梓 ,所 以 它 为 空 的 概率 是 1- N/M ;换言之 ， 

| 


f(M,N) = @ -站 Me (37) 

由 约定 ,我 们 也 置 和 (0,0) =1。 现 在 设 g( M,N ,上 ) 是 使 得 这 算法 保持 位 置 0 为 空 、 
位 置 1 到 & 是 已 占用 的 、 位置 &+1l 为 空 的 散 列 序列 (35) 的 个 数 ,我 们 有 

g(M,N,k) = 的 jr, k)fF(M—-k-1,N—-&) (38) 


因为 所 有 这 样 的 散 列 序列 都 是 由 两 个 子 序 列 组 成 的 ,一 个 序列 (包含 & 个 元 素 ua; 所 
&) 保 持 位 置 0 为 空 , 并 保持 位 置 1 到 是 已 占用 的 , 另 一 个 序列 (包含 N -个 元 素 
aj 之 k++1) 保 持 位 置 &+1 为 空 ;前 一 种 类 型 有 f(k +1,&) 个 子 序 列 , 后 一 种 类 型 有 


Ff(M 一 上 -1,N -不 ) 个 子 序列 ， 而 且 有 | 大 } 种 方式 来 散 开 两 个 这 样 的 子 序列 。 最 
后 , 设 已 是 当 插 入 第 N +1 个 键 码 时 ,恰巧 需要 +1 个 探查 的 概率 ;由 此 得 出 ( 见 
习题 25) 

Pi = M "(g(M,N,k)+g(M,N,k+1)+:+g(M,N,N)) (39) 
现在 ,CN= 双 0(R+1)P,; 把 这 个 等 式 同 (36) 一 (39) 放 在 一 起 并 简化 之 , 即 得 下 列 
结果 。 


定理 K 假定 所 有 MW 个 歼 列 序列 (35) 是 同等 可 能 的 , 则 算法 上 L 所 需要 的 平均 
探 胡 次 数 是 


Cy = (1+ Qo(M,N - 1)) (成 功 的 查找 ) (40) 
Ch = 地 (1+ Qi(M,N)) (不 成 功 的 查找 ) (41) 


* 在 这 里 作者 禁不住 想 要 插 进 一 段 关于 历史 的 说 明 : 我 于 1962 年 在 开始 撰写 本 书后 不 久 , 就 已 写 出 了 下 
面 的 推导 。 由 于 这 是 我 满意 地 分 析 过 的 头 一 个 不 平凡 的 算法 ,因此 它 对 于 这 些 书 的 结构 已 经 有 了 强烈 的 影响 。 
就 是 目 屠 时 起 ,算法 分 析 实 际 上 已 成 为 我 的 生活 的 主旋律 之 一 。 一 一 原 注 
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其 中 
QAMAN) = ND = 


证 明 计算 的 细节 在 习题 27 中 给 出 。( 关 于 方差 ,参见 习题 28,67 和 68)。 | 


在 这 个 定理 中 出 现 的 看 起 来 稍微 有 些 奇 怪 的 函数 Q,( M,N), 实 际 上 并 不 难处 
理 。 我 们 有 


N* — (2 Ne! ZN(N-1)-££(N-k+1)<N* 
因此 如 果 N/M =4a, 则 


3 w(t) Je aonm < 


& 之 0 


Dg) arma Bi 


:20 \ * ‘0\ k 


十 
| , k NM, 


即 


1 -2 < QM,aM) < (43) 


1 

(1-a) M\ 2 2) (Le 
当 M 很 大 , 且 a 不 太 接 近 于 1 时 ,这 个 关系 给 了 我 们 对 于 Q,(M,N) 的 一 个 好 的 估 
计 ( 下 限 是 比 上 限 更 好 的 近似 )。 当 a 趋 于 1 时 ,这 些 公 式 就 没有 用 了 ,但 幸而 
Qo(M,M -1) 是 函数 Q(M), 它 的 渐 近 特性 在 1.2.11.3 小 节 中 已 被 详细 地 研究 过 
了 。 而 且 , Q1(M,M 一 1) 就 等 于 M( 见 习题 S0)。 借 助 于 超 几 何 函 数 的 标准 记号 ， 
即 等 式 1.2.6-39 ,我 们 有 


-~ 十 ,一 入 ,1 


Q,(M,N) = Fr+1l, -Nii-1LM)= 开 1 





1 
_ 六 
分 析 线 性 探查 的 另 一 个 方法 ,已 为 G. Schay,Jr 和 W.G.Spruth 得 到 [CACM 5 
(1962) ,4$9 一 462j。 尽 管 他 们 的 方法 仅 产 生 对 于 定理 开 中 的 精确 公式 的 一 个 近似 ， 
但 它 却 对 这 个 算法 给 出 了 进一步 的 分 析 , 所 以 在 这 里 我 们 将 简单 地 概述 一 下 。 首 
先 ,让 我 们 考虑 由 W.W .Peterson 于 1957 年 首先 指出 的 线性 探查 的 一 个 令 人 惊异 
的 性 质 。 


定理 P 通过 算 落 过 进行 的 一 次 成 功 的 查找 中 ,探查 的 平均 次 数 同 键 码 被 插 人 
的 次 序 无 关 ; 它 公 依 烦 于 项 列 成 每 个 地 在 的 键 码 的 数 旧 。 
换言之 ,一 个 散 列 序列 a1a，…an 的 任何 重新 排列 ,产生 另 一 个 散 列 序列 , 它 的 
"502 。 
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详 键 码 相对 于 散 列 地 址 的 平均 偏 移 和 原 序列 一 样 。( 如 同 早先 指出 的 ,我 们 假定 在 
这 个 表 中 的 所 有 键 码 都 有 相同 的 重要 性 。 如 果菜 个 键 码 比 其 它 键 码 更 频繁 地 被 访 
问 , 则 可 以 扩充 本 地 证 明 , 通 过 使 用 定理 6.1S 的 方法 ,如 果 以 频率 的 递减 的 次 序 插 
入 它们 , 则 出 现 一 种 最 优 的 安排 。) 

证 明 只 需 证 明 ,对 于 散 列 序列 alaz…aN ,为 插入 键 码 所 需要 的 探查 的 总 次 
数 , 和 对 于 ai…ai-lairlaair2 av 1<i<N 所 需要 的 总 次 数 是 相同 的 。 显 然 , 除 
开 在 第 二 个 序列 中 的 第 ;+ 1 个 键 码 落 入 到 在 第 一 个 序列 中 由 第 i 个 键 码 占据 的 位 
置 外 ,两 者 没有 差别 。 但 第 i 个 和 第 i+1 个 仅仅 交换 了 位 置 ,所 以 对 于 第 i+1 个 的 
探查 次 数 减 少 的 数量 ,等 同 于 对 第 i 个 的 探查 次 数 增加 的 数量 。 4 


定理 了 告诉 我 们 ,一 个 散 列 序列 claz…aw 的 平均 查找 长 度 , 可 由 数 606,… 
bm -1 确定 ,其 中 6b; 是 等 于 ) 的 诸 a 的 个 数 。 从 这 个 序列 我 们 可 以 确定 “进位 序列 ” 
coc1"…cM-1; 其 中 Ci 是 这 样 的 一 些 键 码 的 个 数 ,在 这 些 键 码 被 插入 时 单元 ; 和 7 一 1 
都 被 探查 。 这 个 序列 通过 规则 

0， 如 果 6b; = corunmdw = 0 
i ‘ + ctrl)modM 一 1， 人 否则 
确定 。 例 如 , 设 M=10,N=8 以 及 bo0…bo=0320100002; 则 co0…co=2310 
0 00123, 因 为 一 个 键 码 需要 从 位 置 2“ 进 位 ”到 位 置 1 ,三 个 键 码 需要 从 位 置 1 进 
到 位 置 0 ,其 中 的 两 个 从 位 置 0 进 到 位 置 9 ,等 等 。 我 们 有 bo 十 bi 十 十 OM-!1 = 人 ， 
而 且 为 了 查找 N 个 键 码 所 需要 的 平均 探查 次 数 是 


(44 ) 


1+(co+cl+…+tcxAN (45) 


规则 (44) 似 乎 是 用 c 来 定义 自己 的 一 种 循环 定义 ,但 实际 上 每 当 N < M 时 ,所 述 的 
方程 就 有 惟一 的 一 个 解 (见习 题 32)。 
Schay 和 Spruth 使 用 了 这 一 思想 ,借助 于 b; =& 的 概率 pi ,来 确定 cj 二 的 概 
率 gq, (这 些 概率 同 ; 无 关 )。 于 是 
qo = pogqo + piqo + zo9l 
qi = p24do + p141 + pog? (46) 
d2 = p34do0o tT p24d1 + p142 + pog3 
等 等 ,因为 例如 ,c;=2 的 概率 是 b+ cji1) mog M = 3 的 概率 。 设 B(z) = 5pozk 和 
C(z)=Zqtz' 是 这 些 概率 分 布 的 生成 函数 ;等 式 (46) 等 价 于 


B(z)C(z) = pogo + (go 一 poqo)zZ + giz” + = Pogo(l ~ z) + zC(z) 
由 于 B8(1)=1, 我 们 可 以 写 B(z)=1+ (zx 一 1)D(z), 而 且 由 此 得 出 
加 pogo 1-D(1) 
Cs = 1 D(a 7 1 Ds) (47) 








因为 C(1)=1。 根 据 (45) ,为 进行 查找 所 需要 的 平均 探查 次 数 ,将 是 
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AM M D(1) M B’(1) 
lI+NC(D)=1+NI-DD 11+2NIT- BO (48) 
由 于 我 们 假定 了 每 一 个 散 列 序列 Qi1°**QN 是 同等 可 能 的 ,所 以 有 
p =Pr( 对 于 固定 的 ), 恰 有 & 个 ai; 等 于 7) = 
NY/1V/, 1\W-t 
人 ] (总 1 vi (49) 
因此 
B(z) = 1+ [2 | B'(1) = 辣 ， B”(1) MND (50) 
而 且 根 据 (48) ,平均 探查 次 数 将 是 
Cy = (1+ 前 二 (51) 


读者 能 否 看 出 ,引起 这 答案 不 同 于 定理 K 中 的 正确 结果 的 不 正确 推理 (参见 习题 
33)。 


* 最 优 性 考虑 ”我 们 已 经 看 到 若干 关于 开 式 寻 址 法 的 探查 序列 的 例子 ,因而 上 自 
然 要 问 :能 否 找到 一 个 在 某 种 意义 下 是 最 优 的 序列 ? 这 一 问题 已 经 由 J.D. Ullman 
以 下 列 有 趣 的 方式 提出 来 [JACM 19 (1972) ,$69 一 575] ;我 们 不 去 计算 一 个 散 列 地 
址 h(K), 而 是 把 每 个 键 码 KK 都 映射 到 10,1,…,M = 二 的 一 整个 排列 中 ,这 排列 表 
示 对 K 使 用 的 探查 序列 。 对 于 M1! 个 排列 的 每 一 个 赋予 一 个 概率 ,而 且 提 出 一 个 
广义 的 散 列 函数 , 它 以 指定 的 概率 来 选择 相应 的 列 。 问 题 是 :在 其 对 应 的 平均 探查 
次 数 Cw 或 Cw 为 极 小 这 样 的 意义 下 ,对 于 诸 排 列 选 定 什么 样 的 概率 ,将 给 出 最 好 的 
性 能 ?” 
例如 ,如果 对 每 个 排列 选 定 1/1M! 的 概率 , 则 容易 看 出 我 们 恰巧 有 在 (32)、(34) 
中 已 经 分 析 过 的 均匀 散 列 的 特性 。 然 而 ,Uliman 已 经 找到 了 对 于 M =4,N=2 的 
一 个 例子 ,对 于 它 C% 小 于 由 均匀 散 列 得 到 的 什 访 。 他 的 构造 是 ,对 于 除 下 列 6 个 
排列 之 外 的 所 有 排列 ,都 指定 概率 为 0: 
排列 概率 排列 概率 
0123 (1+2c)/6 1032 (1+2c)/6 
2013 (1-e)/6 2103 (1- e)/6 
3012 (1-e)/6 3102 (1- e)/6 
粗略 地 说 ,第 一 种 探查 趋向 于 2 或 3, 但 第 二 种 探查 总 是 0 或 1。 为 插 和 人 第 三 项 所 需 


要 的 平均 探查 次 数 C5 是 二 二 e+ O(e)。 所 以 我 们 通过 取 “ 为 一 个 小 的 正 值 ,可 
以 改进 均匀 散 列 。 
然而 ,对 于 这 些 概率 对 应 的 C1 的 值 是 仿 + O(<), 它 大 于 5/4( 均 色散 列 的 值 )。 
Uliman 已 经 证 明 , 对 于 某 个 N ,使 得 Cw<(CM+1)/CM+I1- N) 成 立 的 任何 指定 ， 
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总 是 意味 着 对 于 某 个 z2<N,C>(M+1)/M+1lI-2)i 你 不 可 能 在 所 有 时 候 都 胜 
过 均匀 散 列 。 

实际 上 ,一 次 成 功 的 查找 的 探查 次 数 CN ,是 比 CN 更 好 的 量度 。(52) 中 的 排列 
对 于 任何 的 N 都 不 能 改进 。 而 且 Ullman 确实 猜测 ,对 概率 的 任何 选 定 ,都 不 能 使 
CN 全 Hv+1- nN)。 姚 期 智通 过 证 明 当 N=aM 和 


M 一 co 时 极限 费用 总 是 之 二 In 一 ;而 证 明了 这 个 猜测 的 一 个 渐进 形式 LA(CM 32 


(1985) ,687~693)。 

Ullman 猜测 的 强 的 形式 似乎 非常 难以 证 明 , 特 别 是 因为 有 许多 方法 可 选 定 概 
率 以 达到 均匀 散 列 的 效果 ;我 们 不 需要 对 每 个 排列 选 定 1/1M 1。 例如 ,对 M=4 的 下 
列 选 定 就 等 价 于 均匀 散 列 : 

排列 ”概率 ”排列 ”概率 
0123 1/6 0213 1/12 
1230 1/6 1320 1/12 (53) 
2301 1/6 2031 1/12 
3012 1/6 3102 1/12 
同时 选 定 其 它 16 个 排列 的 概率 为 0。 
下 列 定 理 表 征 了 产生 均匀 散 列 特性 的 所 有 选 定 。 


定理 U 对 于 0<N<M, 在 进行 7N 次 播 人 之 后 ,对 于 排列 的 一 个 概率 选 定 将 
使 要 ] 个 空 的 和 已 点 用 单元 的 配 重 的 每 一 个 者 同等 可 能 , 当 且 仅 当 对 所 有 的 N 和 


所 有 N 元 素 的 集合 , 选 定 所 有 如 下 排列 的 概率 之 和 是 了/ ] ,这 此 天 列 的 头 N 个 元 


际 是 一 个 给 定 的 N 元 未 焦 合 的 元 素 。 
例如 ,对 于 在 某 一 顺序 下 以 数 10,1,21 开 始 的 3! (M-3)1! 个 排列 中 的 每 个 排 


列 选 定 的 概率 之 和 必然 是 1 )=3! (M -3)! /M1!1。 注 意 ,这 个 定理 的 条 件 在 
(53) 中 成 立 , 因 为 1/L +1/12=1/4。 
证 明 设 ACI0,1,…,M--1|, 且 设 (A) 是 其 头 |A | 个 元 素 为 A 的 成 员 的 
所 有 排列 之 集合 ; 且 设 S(A) 是 对 于 这 些 排列 选 定 的 概率 之 和 。 设 P, (A ) 是 在 执行 
开 式 寻 址 法 过 程 中 头 |A | 次 插入 占用 由 A 确定 的 位 置 , 且 最 后 一 次 插 人 人 恰 需 友 次 
探查 的 概率 ;最 后 , 设 P(A)= Pi(A)+ P;(A)+…。 本 证 明 对 N 之 1 用 归纳 法 , 候 
定 对 于 满足 | A | = ”< N 的 所 有 集合 A 有 
P(A) = S(A) = /(™) 
n 
设 B 是 任意 N 个 元 素 的 集合 , 则 
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Pi(B)= >》, >》), Pr(x)P(B\ {rl) 


ACB xET(A) 


| A| = 人 
其 中 Pr(7) 是 对 排列 x 选 定 的 概率 ,而 re 是 它 的 第 & 个 元 素 。 由 归纳 法 





P.(B)= 2 六 2, Pr(x), 


]“ II( A) 


NA 
一 一 ss $e) 


Ni 
当 目 仅 当 S(B) 有 正确 的 值 时 它 可 等 于 i/(X). 


P(B) = 








外 部 查找 ” 散 列 技术 有 助 于 对 位 盘 或 磁 辟 这 样 的 直接 存 取 存储 设备 进行 外 部 
查找 。 对 于 这 样 的 应 用 ,如 同 在 6.2.4 节 中 那样 ,我 们 要 把 对 文件 的 存 取 次 数 极 小 
化 ,这 对 于 算法 的 选择 有 两 项 主要 的 影响 : 

1) 花 费 较 多 的 时 间 计 算 散 列 函 数 是 合理 的 ,因为 坏 的 散 列 函数 带 来 的 损失 , 比 
起 进行 一 项 仔细 的 工作 所 需要 的 额外 时 间 代 价 要 大 得 多 。 

2) 通 常 都 把 记录 组 织 成 页 或 桶 ,以 便 每 次 从 外 存 取出 告 干 个 记录 。 

把 文件 分 成 为 每 个 包含 5 个 记录 的 M 个 桶 。 现 在 除非 b 个 以 上 的 键 码 有 相同 
的 散 列 地 址 ,不然 冲突 不 会 造成 问题 。 下 列 三 种 解决 冲突 的 方法 似乎 是 最 好 的 : 

A) 用 分 开 的 表 列 拉链 ”如果 有 多 于 6 个 记录 落 到 同一 桶 当中 , 则 可 在 第 一 个 
桶 的 末尾 插入 一 个 通 向 “ 游 出 "记录 的 链接 。 把 这 些 溢出 记录 放 在 一 个 特殊 的 洲 出 
区 域 中 。 通 常 ,在 溢出 区 域 中 存放 桶 并 没有 优点 ,因为 游 出 较 少 出 现 ;于 是 ,通常 额 
外 的 记录 链接 在 一 起 ,使 得 一 个 表 列 的 第 (5 + 上) 个 记录 需要 1 + 次 存 取 。 通 常 一 
种 好 的 想法 是 在 一 个 磁盘 文件 的 每 个 柱 面 上 都 为 溢出 保留 某 些 为 空间 ,使 得 大 多 数 
存 取 是 对 于 相同 柱 面 进行 的 。 

尽管 处 理 溢出 的 这 个 方法 似乎 低 效 , 但 溢出 的 次 数 从 统计 上 说 足够 小 ,以致 平 
均 查 找 时 间 仍 然 非 常 好 。 见 表 2 和 表 3, 它 们 示 出 了 当 M,N 一 %% 时 ,对 于 固定 的 a， 
作为 负载 因子 


a = N/Mb (54) 


的 函数 的 平均 存 取 次 数 。 奇 怪 的 是 , 当 a =1 时 ,不 成 功 的 查找 的 渐 近 存 取 次 数 况 随 
b 而 增加 。 
+ 506 ， 
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表 2 通过 分 开 拉 链 进 行 一 次 不 成 功 查 找 的 平均 存 取 数 


1.1488 


1.1638 


1.1388 


1.1476 
1.1346 
1.0773 


.0234 








.0007 


表 3 通过 分 开 拉链 进行 一 次 成 功 查 找 的 平均 存 取 数 











BB) 通 过 接合 表 列 进行 拉链 ”我 们 可 修改 算法 C, 使 之 适用 于 外 部 文件 ,以 代 答 
分 开 的 溢出 区 域 。 对 于 每 一 个 柱 面 ,使 用 可 利用 空间 的 双重 拉链 表 列 ,可 把 所 有 还 
未 满 的 桶 链接 在 一 起 。 在 这 个 方案 中 ,每 个 桶 包含 一 个 计数 , 它 表 明 桶 中 有 和 多少 记 
录 位 置 为 空 , 仅 当 计数 变 成 0 时 ,这 个 桶 才 从 双重 链接 表 中 撤销 。 可 用 “活动 指针 ” 
分 布 溢出 (参见 习题 2.5-6) ,使 得 不 同 的 表 列 趋 于 使 用 不 同 的 洲 出 桶 。 对 这 个 方法 
还 未 曾 分 析 过 ,但 它 将 被 证 明 是 十 分 有 用 的 。 

C) 开 式 寻 址 法 ”我们 也 可 以 不 用 链 , 而 使 用 “ 开 式 ”方法 。 当 考虑 外 部 查找 时 ， 
线性 探查 大 概 比 随机 探查 更 好 ,因为 通常 可 以 选择 增 量 c 使 它 把 连续 存 取 间 的 等 得 
延迟 时 间 极 小 化 。 可 推广 上 面 作 出 的 线性 探查 的 近似 理论 模型 ,以 考虑 桶 的 影 啊 ， 
它 表 明 ,除非 这 个 表 已 经 变 得 非常 满 ,否则 线性 探查 确实 令 人 满意 。 例 如 ,参见 表 
4; 当 负载 因子 是 90% 且 桶 的 大 小 是 50 时 ,在 一 次 成 功 的 查找 中 平均 存 取 次 数 只 是 
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1.04。 这 实际 上 比 对 于 相同 大 小 的 桶 使 用 拉链 方法 (A) 所 需要 的 1.08 次 存 取 更 好 1 
表 4 通过 线性 探查 在 一 次 成 功 查找 中 的 平均 存 取 次 数 


1.1250 1.2143 1.3333 1.5000 1.7500 
1.0242 1.0553 1.1033 1.1767 1.2930 
1.0066 1.0201 1.0450 1.0872 1.1584 
1.0021 1.0058 1.0227 1.0497 1.0984 
1.0007 1.0039 1.0124 1.0307 1.0661 
1.0000 1.0001 1.0011 1.0047 1.0154 
1.0000 1.0000 1.0000 1.0003 1.0020 





1.0000 1.0000 1.0000 1.0000 1.0000 





对 于 方法 (A) 和 (C) 的 分 析 涉 及 某 些 非常 有 趣 的 数学 ;我 们 在 这 里 仅仅 概述 其 
结果 ,因为 细节 已 在 习题 49 和 55 中 加 以 研究 。 这 些 公 式 涉 及 到 同 定理 KK 的 Q 函 
数 密 切 有 关 的 两 个 函数 , 即 











nN na no” 
Rlasn) 7HItn rr) (rin tra ta) (55) 
以 及 
xa/ (an)” (an)”*! (an)”!” 
tinla) =e (i +2 +)= 
(1 (1 a)R(a,n)) (56) 


硅 用 这 些 函 数 来 表示 , 当 M,N 一 吕 时 ,在 一 次 不 成 功 的 查找 中 通过 拉链 方法 (A) 所 
作 的 平均 存 取 次 数 是 





Ch = 1+ abis(o) + O[ 训 | (57) 
而 在 一 次 成 功 的 查找 中 对 应 的 次 数 是 
—bayb b 
CN =1+ or J2+ (a — 1)6+ 
(a? + (a -1)(6 -1)R(a,5)) to (58) 


这 些 公 式 的 极限 值 是 在 表 2 和 表 3 中 所 示 的 量 。 
由 于 拉链 方法 (A) 需 要 一 个 分 开 的 溢出 区 ,因此 我 们 需要 估计 将 出 现 多 少 溢出 。 
洲 出 的 平均 次 数 将 是 MCCN -1)= Na(a), 因 为 CN-1 是 在 任何 给 定 的 表 列 中 
平均 的 谥 出 次 数 。 因 此 表 2 可 用 来 推导 出 所 需要 的 溢出 空间 的 数量 。 对 于 固定 的 
a, 当 Mo 时 , 洲 出 的 总 数 的 标准 差 将 大 致 同 v M 成 正比 。 
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CN 和 Cw 的 渐 近 值 出 现在 习题 53 中 ,但 当 2 很 小 或 a 很 大 时 ,这些 近 似 不 是 非 
常 好 ;幸而 ,R(a,72) 的 级 数 收 敛 速 度 甚至 当 a 很 大 时 也 颇 快 ,所 以 这 些 公 式 可 以 没 
有 多 大 困难 地 计算 到 任何 想 要 的 精度 。 由 Stirling 近似 公式 和 1.2.11.3 小 节 中 对 
冰 数 R(n)= R(1,n) 一 1 的 分 析 , 当 5 一 吕 时 ,在 





ebpe+! b 
max CN=1+ D1 es +41 O(0 2) (59) 
max Cu = 1+ ORG) = /2 op (60) 
人 2 4 9rrp 


的 条 件 下 ,对 于 a=1 出 现 极 大 值 。 

在 通过 线性 探查 所 作 的 一 次 成 功 的 外 部 查找 中 ,平均 的 存 取 次 数 有 异常 简单 的 
表达 式 

CNn 守 1+t(a)+ ta) + ta3p(a) + (61) 

它 可 被 理解 如 下 :查找 所 有 N 个 键 码 的 平均 总 访问 次 数 是 NMCN ,此 即 N+TIi+T， 
+… ,其 中 TT 是 需要 多 于 & 次 访问 的 键 码 的 平均 个 数 。 和 定理 P 指出 ,我 们 可 以 以 任 
何 顺序 记 入 键 码 而 不 影响 Cn ,并 由 此 得 出 ,如 果 我 们 有 大 小 为 &。 的 MAR 个 桶 , 则 
Ti 是 在 拉链 方法 中 出 现 的 溢出 记录 的 平均 个 数 , 如 果 按 我 们 上 边 所 说 的 ,也 就 是 
Niws (a)。 关 于 等 式 (61) 的 进一步 论证 请 见习 题 55。 

Charles A. Olson 已 经 精采 地 论述 了 早期 在 外 部 散 列 表 的 设计 中 所 涉及 的 实用 
性 的 考虑 ,参见 Proc. ACM Nat. Conf. 24(1969) ,539 一 549。 他 列举 了 若干 实践 过 的 
例子 ,并 且 指 出 ,如 果 文 件 受 到 经 常 的 插入 / 删 去 活动 的 影响 而 不 浮动 记录 , 则 溢出 
记录 的 次 数 将 大 量 增加 ;他 还 给 出 了 对 于 这 一 情况 的 分 析 。 这 是 在 J].A. de Peyster 
的 参与 下 得 到 的 。 


诸 方法 比较 ”我 们 现在 已 经 研究 了 大 量 的 用 于 查找 的 技术 ;怎样 选 出 正 适 合 于 
给 定 应 用 的 一 个 方法 呢 ? 很 难以 几 名 话 来 概括 在 选择 一 个 查找 方法 时 所 涉及 的 有 
关 “折衷 ”的 细节 ,但 是 相对 于 查找 速度 和 所 需 的 存储 空间 说 来 ,下 列 诸 事 似 乎 是 具 
有 第 一 位 重要 性 的 。 

图 44 概括 了 这 一 节 的 分 析 , 并 表明 了 解决 冲突 的 各 种 方法 导致 的 不 同 的 探查 
次 数 。 但 是 探查 计数 并 未 说 出 事情 的 全 部 ,因为 在 不 同 的 方法 中 每 次 探查 的 时 间 也 
不 同 ,而 且 方 法 的 变化 对 于 运行 时 间 有 相当 大 的 影响 (如 同 我 们 在 图 42 中 见 到 的 )。 
线性 探查 比 图 44 中 所 示 的 其 它 方 法 更 经 常 地 访问 表 , 但 是 它 有 简便 的 优点 。 而 且 
线性 探查 也 并 非 坏 得 可 怕 : 当 表 有 90% 满 时 ,为 把 一 个 随机 项 放置 在 表 中 ,算法 L 
平均 需要 少 于 5.5 次 的 探查 。( 然 而 , 当 表 90% 满 时 ,通过 算法 LL 插入 一 个 新 的 项 
所 需要 的 平均 探查 次 数 是 50.5。) 

图 44 表明 ,就 探查 次 数 而 言 ,拉链 方法 是 十 分 经 济 的 ,但 因为 链接 字段 需要 和 额 
外 的 存储 空间 , 故 有 时 开 式 寻 址 法 对 于 小 记录 更 有 吸引 力 。 例 如 ,如 果 我 们 需要 在 
容量 为 500 的 一 个 拉链 散 列表 和 容量 为 1000 的 一 个 开 式 散 列表 之 间 进 行 选择 , 则 
后 者 显然 是 更 可 取 的 ,因为 当 存 有 500 个 记录 时 , 它 的 查找 效率 比较 高 ,而 且 它 有 能 
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0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 
下 载 因 子 a= N/M 
(b) 
图 44 解决 冲突 诸 方 法 的 比较 : 当 M-~> co 时 平均 的 探查 次 数 的 极限 值 
(a) 不 成 功 的 查找 ;(b) 成 功 的 查找 。 

力 吸 收 两 倍 的 数据 。 另 一 方面 ,有 些 记 录 的 大 小 和 格式 实际 上 无 需 额 外 的 代价 就 能 
为 链接 字段 提供 空间 (参见 习题 65)。 

怎样 把 散 列 方法 同 我 们 在 本 章 中 已 研究 过 的 其 它 查找 策略 作 比 较 呢 ? 从 速度 
的 观点 看 ,我 们 可 以 论证 , 当 记 录 个 数 很 大 时 , 散 列 法 更 好 些 , 因 为 如 果 假 设 表 不 太 
满 , 则 当 N->ce 时 ,一 个 散 列 方法 的 平均 查找 时 间 保 持 有 界 。 例 如 , 当 表 有 90% 满 
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时 ,对 于 一 次 成 功 的 查找 ,程序 L 将 仅仅 花费 大 约 55 个 时 间 单 位 ; 当 N 大 于 600 左 
右 时 ,这 比 我 们 见 到 的 最 快 的 MIX 二 分 查找 程序 要 强 ( 见 习题 6.2.1-24), 而 代价 仅 
为 多 花 11% 的 存储 空间 。 而 且 , 二 分 查找 仅 适合 于 固定 的 表 , 而 一 个 散 列 表 却 允许 
有 效 的 插入 。 

我 们 也 可 以 把 程序 L 同 允许 动态 插 人 的 面向 树 的 查找 方法 进行 比较 , 当 N 大 
于 约 90 时 ,对 于 90% 满 的 表 ,程序 L 比 程序 6.2.2T 更 快 ;而 当 N 大 于 约 75 时, 它 
也 比 程序 6.3D 更 快 (习题 6.3-9)。 

对 于 成 功 的 查找 说 来 ,这 一 章 中 仅 有 一 个 查找 方法 是 有 效 且 实际 上 没有 存储 开 
销 的 ,这 就 是 算法 D 的 Brent 变形 。 他 的 方法 允许 我 们 把 NN 个 记录 放 到 大 小 为 M 
= N+1 的 一 个 表 中 ,而 且 平 均 以 大 约 2.5 次 探查 找 出 任何 记录 ,链接 字段 不 需要 招 
外 的 空间 等 ;然而 ,对 于 不 成 功 的 查找 将 是 非常 缓慢 的 ,需要 大 约 N/2 次 的 探查 。 

因此 , 散 列 有 若干 优点 。 男 一 方面 ,在 三 个 重要 的 方面 散 列 表 的 查找 比 我 们 已 
经 讨论 的 其 它 方法 要 差 : 

a) 在 散 列 表 中 一 次 不 成 功 的 查找 之 后 ,我 们 仅仅 知道 所 希望 的 键 码 不 存在 。 以 
比较 为 基础 的 查找 方法 总 是 产生 更 多 的 信息 ,它们 允许 我 们 找 出 三 K 的 最 大 键 公 和 
/或 宇 K 的 最 小 键 码 ;这 在 许多 应 用 中 很 重要 的 ;例如 , 它 允 许 我 们 对 一 个 存储 好 的 
函数 值 表 进行 内 插 。 也 可 使 用 以 比较 为 基础 的 算法 ,来 找 出 处 于 两 个 给 定 的 值 KK 
和 KK 之 间 的 所 有 键 码 。 而 且 6.2 节 的 树 查找 方法 使 得 以 递增 的 次 序 来 遍历 一 个 表 
的 内 容 很 容易 做 ,而 无 需 对 它 单独 排序 。 

b) 对 散 列 表 进 行 存储 分 配 通 常 有 些 困难 的 ;我 们 需要 提供 某 一 个 存储 区 域 用 来 
存 散 列表 ,但 应 当 分 配 多 少 空间 可 能 不 明显 。 如 果 我 们 提供 了 太 多 的 内 存 , 则 可 能 
损害 其 它 表 列 或 其 它 计 算 机 用 户 范 围 内 的 存储 ;但 如 果 不 提供 足够 的 空间 , 则 这 个 
表 会 洲 出 。 反 之 , 树 查 找 和 插入 算法 所 处 理 的 树 不 会 增长 得 比 需 要 的 更 大 。 在 一 个 
虚拟 的 存储 环境 中 ,如 果 我 们 使 用 树 查 找 或 数字 树 查 找 , 就 可 使 内 存 访问 局 部 化 ,而 
不 是 去 建立 一 个 很 大 的 散 列 表 , 散 列表 几乎 在 每 次 散 列 一 个 键 码 时 , 训 要 求 操作 系 
统 访问 一 个 新 的 页 。 

c) 最 后 , 当 我 们 使 用 散 列 方法 时 ,需要 对 概率 论 有 巨大 的 信赖 ,因为 散 列 法 仅仅 
平均 来 说 是 有 效 的 ,而 最 坏 的 情况 则 是 可 怕 的 ! 与 随机 数 生成 程序 的 情况 类 似 , 我 
们 决 不 能 完全 保证 当 把 一 个 散 列 函数 应 用 于 一 个 新 的 数据 集合 时 , 它 能 工作 得 很 
好 。 因 此 散 列 存储 对 于 某 些 同人 类 的 生命 依 关 的 实时 应 用 ,如 空间 交通 控制 ,将 是 
不 适当 的 。6.2.3 小 节 和 6.2.4 小 节 的 平衡 树 算法 更 为 安全 ,因为 它们 的 查找 时 间 
的 上 限 是 有 保证 的 。 


历史 。 散 列 的 思想 看 来 是 由 H.P. Luhn 创立 的 ,他 于 1953 年 1 月 写 了 一 篇 
IBM 的 内 部 备忘录 ,建议 使 用 拉链 ;事实 上 ,这 也 是 拉链 线性 表 的 最 初 应 用 之 一 。 他 
提出 了 在 外 部 查找 中 以 使 用 包含 一 个 以 上 元 素 的 桶 为 好 。 不 久 以 后 ,A.D. Lin 把 
Luhn 的 分 析 推 进一步 ,并 有 旦 提出 了 使 用 “退化 地 址 ”处 理 溢出 的 技术 ;例如 ,假定 存 
在 10000 个 初级 桶 ,1000 个 二 级 桶 ,100 个 三 级 桶 ,等 等 , 则 由 初级 桶 2748 产生 的 洲 
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出 被 置 于 二 级 桶 274 中 ;而 从 该 桶 产生 的 溢出 再 转 到 三 级 桶 27 中 ,等 等 。Luhn 最 
初 提出 的 散 列 函数 本 质 上 是 数字 的 ;例如 ,他 把 键 码 数字 的 相 邻 对 加 起 来 并 mod 10 ,使 
得 31415926 被 压缩 成 4548。 

大 约 同 一 时 间 , 散 列 的 思想 独立 地 出 现 于 IBM 的 男 一 伙 成 员 当 中 。 他 们 是 : 
Gene M.Amdahl、Elaine M. Boehme、N.Rochester 以 及 Arthur L. Samuel ,他 们 编制 了 
对 于 IBM 701 的 一 个 汇编 程序 。 为 了 处 理 冲突 问题 ,Amdanl 创立 了 使 用 线性 探查 
的 开 式 寻 址 法 的 思想 。 

散 列 代码 首先 是 由 Arnold.I.Dumey 第 一 个 在 公开 的 文献 中 描述 的 ,参见 Com- 
puters and Automation 5,12(1956 年 12 月 ),6 一 9。 他 第 一 个 提出 除 以 一 个 素数 和 
使 用 余数 作为 散 列 地 址 的 思想 。Dumey 有 趣 的 论文 提 到 了 拉链 而 非 开 式 寻 址 法 。 
俄罗斯 的 P. Ershov 于 1957 年 独立 地 发 现 了 线性 开 式 寻 址 法 [Doklady Akad. Nauk 
SSSR 118 (1958),427 一 430]; 他 发 表 了 关于 探查 次 数 的 经 验 结果 ,正确 地 猜测 到 当 
N/M<2/3 时 ,每 一 成 功 的 查找 的 平均 探查 次 数 和 2。 

W.W.Peterson 的 一 篇 经 典 的 文章 ,IBM J. Research 及 Development 1 (195S7 ) ， 
130 一 146 , 力 是 第 一 篇 讨论 在 大 型 文件 中 的 查找 问题 的 重要 文章 。Peterson 一 般 地 
定义 了 开 式 寻 址 法 ,分 析 了 均匀 散 列 的 性 能 ,而且 对 于 各 种 桶 的 大 小 给 出 了 关于 线 
性 开 式 寻 址 法 的 各 种 经 验 统 计 , 说 明 当 删 去 项 目 时 出 现 的 性 能 上 的 旷 化 。 六 年 之 
后 ,Werner Buchholz[JBM Systems .2 (1963) ,86 一 111] 发 表 了 关于 这 个 课题 的 男 
一 篇 广泛 的 综述 ,他 给 出 了 关于 散 列 函数 的 一 个 特别 好 的 讨论 。A.G.Konheim 和 
B. Weiss, SIAM J Appl. Math. 14 (1966 ) 1266 ~ 1274; V. Podderjugin, Wis- 
senschaftliche Zeitschrift der Technischen Universitit Dresden 17 (1968) ,1087 一 1089 
首先 发 表 了 对 于 算法 L 的 正确 的 分 析 。 

到 这 时 为 止 ,线性 探查 是 出 现 于 文献 中 的 惟一 的 一 类 开 式 寻 址 法 方案 ,但 还 有 
一 个 通过 独立 的 散 列 函 数 进行 重复 的 随机 探查 为 基础 的 方案 是 由 另外 一 些 人 独立 
地 提出 来 的 (见习 题 48)。 在 之 后 数 年 中 散 列 广泛 地 被 使 用 ,但 是 几乎 没有 发 表 任 
何 更 多 的 东西 。 然 后 Robert Morris 写 了 一 篇 关于 这 个 课题 的 非常 有 影响 的 综述 
[CACM 11 (1968) ,38 一 44] ,其 中 他 介绍 了 带 有 二 次 堆积 的 随机 探查 的 思想 。Mer- 
ris 的 文章 引起 了 一 阵 研究 热潮 ,并 以 算法 D 及 其 改进 而 达到 融 潮 。 

说 明 这 样 一 点 是 有 趣 的 ,具有 目前 的 意义 的 “ 散 列 "(hashing) 一 词 ,在 20 世纪 
60 年 代 末 期 以 前 ,似乎 完全 没有 见 诸 文字 当中 ,尽管 那 时 在 世界 的 各 于 地 区 它 已 经 
变 成 了 普遍 的 术语 。 这 个 字 最 初 见于 书面 似乎 是 在 H. Hellerman 的 书 Digital Com- 
puter System Principles (纽约 :McGraw 一 Hill,1967), 第 152 页 中 。 在 拟 写 这 一 市 
时 ,我 所 研究 的 近 60 篇 有 关 的 文献 当中 ,这 一 词 惟一 地 出 现 于 1961 年 由 W.W.Pe- 
terson 所 写 的 一 篇 未 发 表 的 备忘录 中 。 在 20 世纪 60 年 代 中 期 ,不 知 怎么 回 事 ,“ 获 
” 列 ”(to hash) 这 一 动词 竟 魔 术 般 地 变 成 了 关于 键 码 转换 的 标准 术语 ,但 是 在 1967 年 
以 前 却 没 有 人 敢 很 轻率 地 公开 使 用 这 样 一 个 不 庄重 的 词 。 


最 新 的 进展 ”自从 作者 于 1972 年 最 初 编写 这 一 章 时 , 散 列 在 理论 和 时 间 上 都 
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已 取得 许多 进展 ,但 上 面 讨 论 的 基本 思想 对 于 通常 的 应 用 来 说 仍然 是 有 用 的 。 例 
如 ,由 J.S. Vitter 和 陈 文 进 所 写 的 书 Design and Analysis of Coalesced Hashing (纽约 : 
牛津 大 学 出 版 社 ,1987) 讨 论 和 分 析 了 算法 C 的 若干 有 教 益 的 变形 。 

从 一 种 实用 的 观点 看 ,在 20 世纪 70 年 代 末 期 发 明 的 最 重要 的 散 列 技术 大 概 是 
Witold Litwin 称 之 为 线性 散 列 的 方法 [Proc. 6th International Conf on Very Large 
Databases (1980) ,212 一 223]。 线 性 散 列 顺便 说 它 和 线性 探查 的 经 典 技 术 毫 无 
关系 当 诸 项 被 插入 和 /或 删 去 时 ,允许 散 列 地 址 的 数目 增长 和 /或 合适 地 收缩 。 
Per-Ake Larson 在 CACM 31 (1988) ,446 一 457 给 出 了 关于 线性 散 列 , (包括 对 于 内 
查找 , 它 同 其 它 方法 的 比较 在 内 ) 的 一 个 杰出 的 讨论 ;对 于 当 许 多 大 的 和 /或 小 的 表 
同时 出 现时 的 改进 ,也 请 见 W.G. Griswold 和 GG. M. Townsend ,Software Practice & 
Exp. 23〈1993) ,351 一 367。 线 性 散 列 也 被 用 于 在 一 个 网 络 的 许多 不 同 的 现场 之 间 
分 布 的 巨大 的 数据 库 中 [参见 Litwin, Neimat 和 Schneider,ACM Trans. Database 
Syst. 21 (1996),480 一 525]。 大 约 在 同一 时 期 ,R. Fagin,]. Nievergelt, N. Pippenger 
和 H.R. StrongLACM Tians. Database Syst. 4 (1979),315 一 344] 提 出 了 称 作 可 扩充 的 散 
列 的 万 一 个 方案 。 它 有 这 样 的 性 质 , 即 为 检索 任何 记录 ,至 多 需要 两 次 访问 外 部 的 页 。 
当 键 码 的 次 序 不 重要 时 ,线性 散 列 和 可 扩充 散 列 都 比 6.2.4 小 节 的 B 树 更 可 取 。 

在 理论 领域 中 ,已 经 设计 出 更 复杂 的 方法 ,通过 这 些 方法 ,有 可 能 保证 ,不 论 被 
考察 的 键 码 如 何 , 对 于 每 次 访问 ,有 O(1) 的 极 大 时 间 , 且 对 于 每 个 插入 和 删除 有 
O(1) 的 平均 平 推 时间; 而 且 , 在 任何 时 间 里 所 使 用 的 总 共 的 存储 以 一 个 常数 乘 上 当 
前 存在 的 次 数 为 限 , 加 上 另外 一 个 加 性 常数 。 在 Fredman, Koml6s 和 Szemerédi 
LUJACM 31 (1984) ,538 一 544] 的 思想 为 基础 构建 出 来 的 这 一 结果 ,是 由 Dietzfel- 
binger, Karlin, Mehlhorn, Meyer auf der Heide, Rohnert 以 及 Tarjan [ SICOMP 23 
(1994),738 一 761 |] 给 出 的 。 








习题 


1.L20」 假定 K 的 字 节 1,2,3 各 包含 少 于 30 个 字母 字符 代码 , 当 达 到 表 1 中 的 指令 9H 时 ， 
rIl 的 内 容 可 以 多 小 和 多 大 ? 
2.L20] 找 出 可 以 附加 到 表 1 而 又 无 需 改变 程序 的 相当 常用 的 英文 字 。 
3.L23」 说 明 为 什么 对 任何 常数 a ,以 下 列 五 条 指令 开始 的 程序 
LD1 K(1:1) 或 LD1N K(1:1) 
LD2 K(2:2) 或 LD2N K(2:2) 
.INC1 a ,2 
LD2 K(3:3) 
J22 9F 
都 不 能 用 来 代替 表 1 中 更 复杂 的 程序 ,因为 对 于 给 定 的 键 码 将 不 能 产生 惟一 的 地 址 。 
4.LM30] 为 了 使 得 很 可 能 有 三 个 人 有 相同 的 生日 ,应 该 有 多 少 人 参加 一 个 晚会 ? 
5.[15] B.C.Dull 曾经 用 一 台 十 进 的 MIX 计算 机 写 一 个 FORTRAN 编译 程序 ,而且 他 需要 一 
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个 符号 表 来 记 住 正 在 被 编译 的 FORTRAN 程序 中 的 变量 名 字 。 这 些 名 字 的 长 度 限 制 成 至 多 10 
个 字符 。 他 决定 使 用 M = 100 的 一 个 散 列 表 ,而 且 使 用 快速 散 列 函数 h(K)= 的 最 左 字 节 。 这 
是 一 个 好 的 想法 吗 ? 

6.[15] 把 (3) 的 头 两 条 指令 改变 成 为 LDA K;ENTX 0, 是 明智 的 吗 ? 

7.[HM30]( 多 项 式 散 列 ) 本 题 的 目的 是 考虑 如 像 (10) 那 样 的 多 项 式 P(z) 的 构造 , 它 把 ”位 
键 公转 换 成 为 mx 位 地 址 ,使 得 任何 两 个 不 相同 的 键 码 如 果 其 区 别 不 超过 七 位 , 则 它们 一 定 被 散 列 
成 不 同 的 地 址 。 给 定 n 和 :三 ,并 给 定 一 个 整数 ,使 得 n 整除 a -1 工 ,我 们 将 构造 一 个 其 次 数 六 
是 ”上 和 的 哨 数 的 一 个 多 项 式 ( 通 常 在 必要 时 增 大 n 使 得 把 & 选择 成 相当 小 )。 

设 S 是 使 得 |1,2,…,i| 导 Ss 的 整数 的 最 小 集合 ,而 且 设 对 所 有 jE€S,(2;j) mod nmnES。 例 
如 , 当 n=15,k=4,t:=6 时 ,我 们 有 S= |1,2,3,4,5,6,8,10,12,9}。 现 在 定义 多 项 式 P(x)= 
Iles(xz— w ), 其 中 a 是 有 限 域 GF(2*) 中 阶 为 n 的 一 个 元 素 , 而 且 P(x) 的 系数 是 在 这 个 域 中 计 
算 的 。P(z) 的 次 数 m 是 S 的 元 罕 的 个 数 。 因 为 当 w 是 P(z) 的 一 个 根 时 ,a”” 也 是 它 的 一 个 根 ， 
由 此 得 出 P(z) 的 系数 p; 满足 pi= p;, 所 以 它们 全 都 为 0 或 1。 

斌 证明, 如 果 R(xz)=7r,_1z” +…+riz+ro 是 任意 非 0 多项式 modvulo 2, 而 且 至 多 有 :个 
非 0 的 系数 , 则 R(z) 不 是 P(z)modulo 2 的 一 个 倍数 [由 此 得 出 ,对 应 的 散 列 函数 的 特性 就 像 已 
宣告 的 那样 。] 

8.[M34] (三 距离 定理 ) 设 9 是 0 和 1 之 间 的 无 理 数 ,在 4.5.3 小节 的 记号 下 它 的 连 分 式 表 
示 是 0= /aiya2,a3,"…/。 设 go=0,po=1,91=1,p1=0, 对 于 之 1, gi41= ak gr-1s peti 
= ai 加 + 加 -ie 设 izl 表 示 z mod1=x-Lxj, 目 设 izl’ 表示 xz-[|z1l+1。 随 着 点 191 ,1{20|， 
[301 ,… 逐 次 插入 到 区 间 [0,1] 中 ,而 把 线段 按 它们 出 现 的 方式 进行 编号 ,使 得 一 个 给 定 长 度 的 第 
一 段 编号 为 0, 第 二 段 为 1 ,等 等 。 试 证 明 下 列 命 题 全 为 真 : 长 度 为 i101 且 编号 为 ;的 区 间 , 其 左 端 
点 为 1591, 右 端点 为 {(s+1)9i' ,其 中 1= rqs+ gq-1 和 0 志 r < 之 a 有 昌 上 为 偶数 以 及 0 过 ;< gq。 长 
度 为 1 -1:0} 旦 编号 为 ;的 区 间 , 其 左 端点 为 |(s + 上 )01, 右 端点 为 150| ,其 中 t= rgi+ qs-1; 和 0 
三 r<al 且 上 为 奇数 及 0 二 ;< ak。 每 个 正 整数 n 均 可 惟一 地 表示 成 n= rgs + q_i+s, 其 中 不 之 
1,1 夺 ra4,0 研 s < qs。 借助 这 个 表示 ,在 点 1n91 被 插入 之 前 ,已 有 的 ”个 区 间 为 

长 度 |(-1) (ro + qs-1)09} 的 头 ;个 区 间 (编号 0,…,s 一 1); 

长 度 i( 一 1)* gq01 的 头 nn 一 qj 个 区 间 (编号 为 0,…,n 一 gq 一 1); 

长 度 |( 一 1)*((r 一 1)q4+ gi-1)91 的 最 后 g, 一 s 个 区 间 ( 编 号 为 s,… ,gq 一 1) 
插入 1x01 的 操作 撤销 编号 为 ;的 最 后 一 种 类 型 的 区 间 , 并 把 它 转换 成 编号 为 ;的 第 一 种 类 型 的 区 
间 , 以 及 编号 为 n 一 gq; 的 第 二 种 类 型 的 区 间 。 

9.[M30 1] 当 我 们 逐次 地 把 点 19| ,1260|,… 插 入 到 区 间 [0.1] 中 时 ,定理 S 断言 每 个 新 的 点 总 
是 分 割 剩 下 的 最 大 的 区 间 之 一 。 如 果 把 区 间 [acj 分 成 两 个 部 分 [cb],[b6c], 而 其 中 的 一 个 部 分 
大 于 另 一 部 分 的 两 倍 长 , 即 若 5-a>2(c-p0) 或 c-0>2(00-a), 则 我 们 称 它 为 一 个 坏 的 分 
割 | 。 

证 明 除 非 6 mod 1= $8 i 或 $8 *, 对 于 某 个 1n0| 将 出 现 坏 的 分 割 ,而 当 86 mod1=$8 5 或 区 
时 ,将 决 不 产生 坏 的 分 割 。 

10.[M38] (R.L.Graham) 如 果 0,al,… ,ay 是 实数 且 wi =0, 且 如 果 m1,… ,ns 是 正 整 数 , 此 
外 如 果 对 于 0 三 n<n,1 志 j 二 4 ,点 120+ ol 被 插 人 到 区 间 [0.1] 中 , 则 得 到 的 w+ … + ng( 可 能 
为 空 ) 个 区 间 至 多 有 34 个 不 同 的 长 度 。 

11.[16] 成 功 的 查找 通常 比 不 成 功 的 查找 要 更 为 频繁 。 如 果 因 此 而 把 程序 C 的 行 12 一 13 同 
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行 10 一 11 加 以 交换 ,这 是 否 为 一 个 好 想法 ? 

> 12.f211 证 明 程序 C 可 被 重 写成 使 得 在 内 部 循环 中 仅 有 一 个 条 件 转移 。 把 修改 了 的 程序 同 
原来 的 程序 的 运行 时 间作 比较 。 

P13.[24] ( 略 写 的 键 码 ) 设 h(KK) 是 一 个 散 列 函 数 , 且 设 ga(K) 是 K 的 一 个 陪 数 ,使 得 一 旦 已 
经 给 定 h(K) 和 a(K), 便 可 确定 K。 例 如 ,在 除法 散 列 中 ,我 们 可 以 设 h(K)=K mod M 及 
a(K)=|K/Mj; 在 乘法 散 列 中 可 以 设 h(K) 是 (AK/w)mod 1 的 前 几 个 二 进位 ,而 ga(K) 是 其 和 它 
的 二 进位 。 

试 证 明 , 当 使 用 拉链 而 不 使 用 重要 的 表 列 时 ,在 每 个 记录 中 我 们 仪 需 存储 9(K ) 而 不 是 K( 这 
几乎 节省 了 链接 字段 所 需要 的 空间 )。 试 修改 算法 C 使 其 避免 重 和 的 表 列 ,以 允许 这 样 略 写 的 键 
码 , 而 且 对 于 “溢出 ”的 记录 还 不 使 用 辅助 存储 单元 。 

14.[24] E.W.Rlcock 证 明 有 可 能 让 一 个 很 大 的 散 列 表 同 任意 多 个 其 它 拉链 未 共享 内 看。 
设 这 个 表 列 区 域 的 每 个 字 有 一 个 2 位 二 进位 的 TAG 字 跋 以 及 称 作 LINK 和 AUX 的 两 个 链接 字段 ， 
并 有 下 列 的 解释 : 

TAG(P) = 0 表示 可 用 空间 表 列 中 的 一 个 字 ;LINK(P) 指 向 该 表 中 的 下 一 项 ,AUX(P) 不 用 。 

TAG(P) = 1 表示 正在 使 用 的 一 个 字 ,其 中 P 不 是 散 列 表 中 任何 键 码 的 散 列 地 址 ;单元 P 中 字 的 
其 它 字 段 可 以 有 任何 需要 的 格式 。 

TAG(P) = 2 表示 P 至 少 是 一 个 键 码 的 散 列 地 址 ;AUX(P) 指 向 确定 所 有 这 样 键 码 的 一 个 链接 表 ， 
LINK(P) 指 向 这 个 表 存 储 器 中 的 另 一 个 字 。 在 处 理 任何 表 期 间 ,每 当 访问 带 有 TAG(P) =2 的 一 个 
字 时 ,就 重复 地 置 P<-LINK(P) ,直到 达到 具有 TaRG(P) 委 1 的 一 个 字 为 止 。( 为 了 效率 ,我 们 也 可 以 
改变 以 前 的 链 ,使 得 今后 不 需要 一 再 地 跳 过 这 些 散 列表 的 项 。) 

为 在 这 样 的 一 个 组 合 表 中 插入 和 检索 键 码 , 试 定义 一 个 适当 的 算法 。 

15.[16] 为 什么 算法 L 和 算法 D 当 N= M1 而 不 是 当 N= M 时 警告 游 出 是 一 个 好 想法 ? 

16.[10] 程序 二 指出 ,K 不 应 为 0。 但 当 KK 为 0 时 , 它 是 否 就 真正 不 能 工作 了 ? 

17.[15] 当 hi(K) 关 0 时 ,为 什么 不 简单 地 在 (25) 中 定义 ha(K)= hi(K)? 

> 18.[21] 作为 程序 DD 的 行 10 一 13 的 一 个 替换 ,(31) 比 (30) 好 些 还 是 坏 些 ? 试 根据 A,S1 和 
C 的 平均 值 ,给 出 你 的 答案 。 

19.[40] 试 凭 经 验 测试 算法 D 中 以 下 列 方式 限制 h,(K) 的 范围 的 效果 :(a) 对 于 r=1,2,3， 


…10, 使 得 1ho(K) 过 r;(b) 对 于 p= 而 ,而 …1 放 ;使 得 1<h(K)<oM。 


20.[M25] (R.Krmtar) 改变 算法 了 如 下 以 免 去 散 列 函数 h,(K): 在 步骤 D3 中 置 c< 一 0; 且 
在 步骤 D4 的 开始 置 c<-c + 1。 试 证 明 , 如 果 M = 2”, 则 对 应 的 探查 序列 hi(K),(hi(K) 一 1) 


mod Me (hlK) - (有 mod M 将 是 10,1,…,M 一 1| 的 一 个 排列 。 假 定 这 个 方法 的 特性 与 


具有 二 次 堆积 的 随机 探查 一 样 , 则 当 把 这 个 二 次 探查 方法 编 成 MIX 程序 时 ,该 程序 与 图 42 中 考虑 
的 三 个 程序 比 起 来 是 好 还 是 坏 ? 
21.[20] 假设 我 们 希望 从 由 算法 D 构造 的 一 个 表 中 删 去 一 个 记录 ,并 如 同 正文 中 所 建议 的 
那样 ,标记 它 为 “ 删 去 的 ”"。 试 问 , 我 们 也 应 该 把 用 以 支配 算法 D 的 变量 N 减 值 吗 ? 
22.[27] 证 明 算 法 R 使 表 保持 好 像 它 未 曾 在 开头 的 位 置 被 插入 过 KEYL ij 那样 。 
P23.[33] 试 设计 类 似 于 算法 R 的 一 个 算法 ,用 于 从 通过 算法 C 构造 的 一 个 拉链 散 列 表 中 删 
去 项 。 
24.[M20] 假设 所 有 可 能 出 现 的 键 码 的 集合 有 MP 个 元 素 , 其 中 恰 有 P 个 键 码 散 列 到 任何 
给 定 的 地 址 。( 在 实际 情况 下 ,P 是 非常 大 的 ;例如 当 诸 键 码 为 任意 的 十 进 数字 时 ,如 果 M=1I10 ， 
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则 我 们 有 P= 10?7。) 假 设 M 宇 7 且 N=7。 如 果 从 所 有 可 能 的 键 码 的 集合 中 随机 地 选择 七 个 不 同 
的 键 码 , 则 作为 M 和 P 的 函数 得 到 的 散 列 序列 为 1262161( 即 有 h(Ki)=1,h(K,)=2,.…,h 
(K7)=1) 的 精确 概率 等 于 多 少 ? 

25.[M19] 说 明 等 式 (39) 为 什么 是 正确 的 ? 

26.[M20] 利用 线性 探查 时 ,有 多 少 散 列 序列 产生 如 (21) 那 样 的 已 占用 单元 的 型 式 。 

27.[M27] 完成 定理 K 的 证 明 [ 提 示 ; 设 


rr = 下 


使 用 Abel 二 项 式 定理 , 即 等 式 1.2.6-(16) ,来 证 明 s(n,zx,y)=zx(z+y)”+ns(n-1,z+1,y— 
1)]。 

28.[M301] 昔日 的 计算 机 比 今天 的 慢 得 多 ,有 可 能 观看 指示 灯 的 闪烁 ,并 了 解 算法 工 运 行 多 
快 。 当 表 开 始 填 满 时 , 某 些 项 将 非常 快 地 被 处 理 ,而 其 它 的 则 花费 大 量 的 时 间 。 

这 个 经 验 提示 , 当 使 用 线性 探查 时 在 一 次 不 成 功 的 查找 中 探查 次 数 的 标准 差 是 相当 高 的 。 
试 求 一 个 公式 , 它 借助 于 在 定理 K 中 定义 的 Q, 函数 表达 方差 ,并 估计 当 M 一 % 且 N=aM 时 的 
方差 。 

29.[M21] (停车 问题 ) 菜单 行道 有 排 成 一 行 的 m 个 停放 车 辆 的 位 置 , 其 编号 为 1 到 m。 
一 个 人 和 他 的 打 睹 睡 的 妻子 驱车 过 街 ,突然 他 妻子 醒 过 来 并 命令 他 立即 停车 ,他 顺从 地 把 车 停 在 
第 一 个 可 利用 的 位 置 ;但 如 果 没 有 狮 下 位 置 了 , 则 他 可 以 不 必 后 退 ( 即 如 果 在 他 车 子 达 到 位 置 
时 ,他 的 妻子 才 醒 过 来 ,但 位 置 上 ,&+1,…,7 全 都 满 了 ), 他 表示 歉意 并 继续 行驶 。 

事实 上 ,假设 对 ” 辆 不 同 的 小 汽车 发 生 此 事 , 其 中 第 ) 个 妻子 刚巧 在 停车 位 置 w 时 醒 过 来 。 
假定 这 条 街道 开始 时 是 空 的 ,而 且 在 停车 之 后 没有 人 离开 ,试问 有 多 少 个 序列 af…an 使 所 有 的 
小 汽车 都 能 安全 地 停放 ? 例如 , 当 m=n=9 和 al…ag==314159265 时 ,这 些小 汽车 停放 如 
下 ， 


A A A < < < < < 
[提示 :使 用 对 线性 探查 的 分 析 。] 

30.[M28 ] 在 习题 29 的 停车 问题 中 , 当 = mm 时 , 试 证 明 所 有 的 小 汽车 都 能 停放 的 充 要 条 
件 是 存在 11,2,…,n| 的 一 个 排列 pip2… p, ,使 得 对 所 有 的 j ,a 二 p;。 

31.[M40] 在 习题 29 的 停车 问题 中 , 当 n= m 时 , 解 的 个 数 已 证 明 是 (n+ 1)” !; 而 县 从 习 
题 2.3.4.4-22 我 们 知道 ,这 和 具有 (n+ 1) 个 带 标 号 顶点 的 自由 树 的 个 数 相同 ! 试 求 在 停车 序列 
和 树 之 间 的 有 趣 联 系 。 


32.[M26 ] 证 明 每 当 5b0,6b1,…,bm-1 是 和 数 小 于 M 的 非 负 整数 时 ,方程 组 (44) 有 惟一 解 
(coyc1，"… ,CM-1)。 斌 设计 出 求 这 个 解 的 算法 。 
p33.[M23] 说 明 (51) 为 什么 仅仅 是 由 算法 L 所 作 的 真正 的 平均 探查 次 数 的 一 个 近似 。 在 
(5’) 的 推导 中 有 什么 不 是 严格 地 精确 的 东西 ? 
P34.[M22] 本 题 的 目的 是 研究 : 当 诸 表 列 像 (38) 那 样 保持 分 开 时 ,在 一 个 拉链 的 散 列表 中 的 
平均 探查 次 数 。 
a) 求 Py , 即 当 MN 个 散 列 序列 (35) 同 等 可 能 时 ,一 个 给 定 的 表 列 有 长 度 & 的 概率 。 
bp) 求生 成 函数 P,(z)= 之 
c) 借 助 于 这 个 生成 函数 ,表达 出 一 次 成 功 的 查找 所 需 的 平均 探查 次 数 。 
d) 推 导出 在 一 次 不 成 功 的 查找 中 的 平均 探查 次 数 , 并 考虑 采用 下 列 约 定 的 数据 结构 变形 : (i) 
。 $16 ， 
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散 列 总 是 对 一 个 表 头 进行 (参见 图 38); (ii) 散 列 是 对 表 的 一 个 位 置 进行 (参见 图 40) ,但 除了 一 个 
表 的 开头 之 外 所 有 的 键 码 进入 到 一 个 分 开 的 溢出 区 域 ;(ii) 散 列 是 对 表 的 一 个 位 置 进行 而 且 所 有 
项 都 出 现 于 散 列 表 中 。 

35.[M24 ] 继续 习题 34, 当 各 表 列 按照 它们 的 键 码 值 保持 有 序 时 ,在 一 次 不 成 功 的 查找 当 
中 平均 探查 次 数 是 多 少 ? 考虑 数据 结构 (i) (ii) 和 (iii) 。 

36.[M23] 继续 习题 34(d), 当 查找 不 成 功 时 ,使 用 数据 结构 (i) 和 (ii) , 求 探 查 次 数 的 方差 。 

了 P37.LM29] 公式 (19) 给 出 当 查 找 成 功 时 在 分 开 的 拉链 中 探查 的 平均 次 数 ;这 个 量 的 方差 是 

多 少 ? 

38.LM32 ]( 树 散 列 ) 一 个 机 灵 的 程序 员 可 以 尝试 使 用 二 分 查找 树 以 代替 拉链 方法 中 的 线 
性 列表 ,由 此 把 算法 6.2.2T 与 散 列 结合 起 来 。 试 分 析 通 过 这 个 复合 的 算法 ,对 于 成 功 和 不 成 功 
的 查找 两 者 所 需要 的 平均 探查 次 数 。[ 提 示 : 参 看 式 S.2.1-(15)]。 

39.[M28j 设 cNw(A) 是 当 把 算法 C 应 用 于 所 有 MY 个 散 列 序列 (35) 时 形成 的 长 度 为 & 的 列 
表 总 数 。 求 关于 数 cN(&) 的 一 个 递 推 关系 使 得 有 可 能 确定 对 于 和 

SN = > ， (je 


k 


的 一 个 简单 公式 。Sw 与 用 算法 C 作 不 成 功 查 找 时 所 需 平均 探查 数 的 关系 如 何 ? 

40.[LM33] 公式 (15) 给 出 在 一 次 不 成 功 的 查找 中 由 算法 C 所 使 用 的 平均 探查 次 数 , 这 个 量 
的 方差 是 多 少 ? 

41.[M40」 分 析 TN, 即 当 通 过 算法 C 插 入 第 N+1 个 项目 时 下 标 R 的 值 减 1 的 平均 次 数 。 

P42.[M20] 推导 (17) , 即 算法 C 立 即 成 功 的 概率 。 

43.LDM44] 试 分 析 使 用 大 小 为 M' 宇 M 的 一 个 表 对 算法 C 进行 的 一 项 修正 。 在 这 项 修正 
中 仅仅 前 M 个 单元 被 用 于 散 列 ,所 以 在 步骤 C5 中 找到 的 前 M’ - M 个 空 的 节点 将 在 这 个 表 的 额 
外 单元 中 。 对 于 固定 的 M', 在 1 二 MM 范围 中 选择 什么 样 的 M 方 能 导致 最 好 的 性 能 ? 

44.[M43] (有 二 次 堆积 的 随机 探查 ) 这 个 习题 的 目标 是 确定 具有 探查 序列 

hA(K), (AR(K) + p1) mod M, (h(K)+ p,) mod NM ，…， 
(h(K)+ pu_1i)mod M 

的 开 式 寻 址 方案 中 预期 的 探查 次 数 ,其 中 p1ps… pm-1 是 依赖 于 h(K) 的 一 个 随机 选择 的 |1,2， 
…,，M 一 1 的 排列 。 换 言 之 ,具有 相同 h(K ) 值 的 所 有 键 码 都 遵循 相同 的 探查 序列 ,而 且 具 有 这 一 
性 质 的 M 个 探查 序列 的 (JM -1)!1* 种 可 能 的 选择 都 是 同等 可 能 的 。 

这 一 情况 可 以 通过 对 开始 时 是 空 的 大 小 为 m 的 线性 阵列 实施 的 下 列 实验 步骤 来 精确 地 模 
拟 。 进 行 如 下 操作 n 次 ;“ 以 概率 p ,占用 最 左 的 空位 置 ,否则 ( 即 以 概率 gqg = 1 p), 选 择 表 中 除 
最 左 者 外 的 任意 位 置 ,而 且 这 m -1 个 供 选择 的 位 置 是 同等 可 能 的 。 如 果 选 出 的 位 置 是 空 的 , 则 
占用 它 ;否则 选择 任何 空 的 位 置 ( 包 括 最 左边 的 ) 并 占用 它 , 同 时 认为 每 一 个 空 的 位 置 是 同等 可 能 
的 。 

例如 , 当 m=5 和 n=3 时 ,在 上 述 的 实验 之 后 的 阵列 配置 将 为 (已 占用 ,已 占用 , 空 ,已 占用 ， 
空 ) 的 概率 是 ; 

7 1 1 11 1 1 1 
192999 + 6 P49 + 6 9p4q + 649P + 3 Pp +t 4 Papt+ qapp 

(这 个 过 程 对 应 于 当 p=1/m 时 的 有 二 次 堆积 的 随机 探查 ,因为 我 们 可 以 把 表 的 项 重新 编号 使 得 
一 个 特殊 的 探查 序列 是 0,1,2,… 而 所 有 其 它 的 都 是 随机 的 。) 

试 求 出 在 这 个 阵列 左边 的 已 占用 位 置 ( 即 ,在 上 例 中 的 2) 的 平均 数 的 一 个 公式 。 并 求 当 p= 
ljm,n= 二 a(m+1) 和 mr 一 吕 时 ,这 些 量 的 渐 近 值 。 
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45.[M43] 当 探 查 序列 以 hy,(K),(hi(K)+h,(K)) mod M 开始 , 且 随 后 的 探查 仅仅 依赖 
于 hh,(K) 和 hs,(K) 的 随机 选择 时 ,求解 具有 三 次 堆积 的 习题 44 的 类 似 情 况 。( 于 是 ,具有 这 一 性 
质 的 M(M - 1) 个 探查 序列 的 (M -2)!1Y(CY- 10 种 可 能 的 选择 ,被 认为 是 同等 可 能 的 。) 这 个 过 程 渐 
近 地 等 价 于 均匀 探查 吗 ? 

46.[M42] 试 确定 使 用 探查 序列 


h(K),0,1,.…,h(K) 1,h(K) 十 1,.%…,M — 1 


的 开 式 寻 址 方法 的 CN 和 Cn。 

47.[M25 ] 当 探 查 序列 是 

h(RK),ACK)-1h(K)+1h(KR) -2,h(K)+2,.: 
时 , 试 求 为 开 式 寻 址 所 需要 的 平均 探查 数 。 这 个 探查 序列 曾 一 度 被 提出 ,因为 当 M 为 偶数 时 , 连 
续 探 查 之 间 的 所 有 距离 都 是 不 同 的 。[ 提 示 : 找 窍门 ,这 个 问题 很 容易 。] 
p48.[M21] 给 定 互 相 独 立 的 随机 散 列 函数 h,(K) 的 一 个 无 穷 序 列 , 试 分 析 探 查 位 置 

hi1(K),h(K),ha(K),… 的 开 式 寻 址 方法 。 在 这 个 方案 下 ,有 可 能 探查 同一 个 位 置 两 次 ,例如 如 
果 hi(K)=h,(K), 但 在 诸 表 变 满 之 前 ,这 样 的 侦 然 性 很 少 可 能 。 

49.[HM24 ] 推广 习题 34 到 每 个 桶 有 65 个 记录 的 情况 ,对 于 具有 分 开 的 表 列 的 拉链 ,确定 
其 平均 的 探查 次 数 ( 即 外 部 存储 访问 ) Cy 和 Cw ,并 假定 在 一 次 不 成 功 的 查找 中 含有 个 元 素 的 
一 个 表 列 需要 max(1,k -5b5+1) 次 探查 。 不 像 在 习题 34 中 那样 使 用 精确 的 概率 Pav ,我 们 使 用 治 


松 近 似 
(1 
Sp (I + O(k*/M)) 


当 M-~>co 时 , 它 对 于 N= pM 和 kV M 成 立 。 试 推导 公式 (57) 和 (58)。 

50.[M20] 证 明 , 在 (42) 的 记号 下 , QJ(M,N)=M-(M-N-1)Qo(M,N)。[ 提 示 : 首 先 
证 明 Qi(M,N)= (N+1)Qo(M,N)— NQoA(M,N -1)] 

51.[HM17] 借助 于 在 (42) 中 定义 的 函数 Qo ,来 表达 在 (55) 中 定义 的 函数 R(a,n)。 


52.LHM20」] 证 明 Qo(M,N)= | el + tI/M)Ndio 


53.[HM20] 证 明 梢 数 R(a,n) 可 借助 于 不 完备 的 佑 马 消 数 表达 ,并 使 用 习题 1.2.11.3-9 
的 结果 求 出 当 一 ce 时 ,对 于 固定 的 a<1,R(a,n) 的 浙 近 值 直 到 O(n “)。 
54.[HM28] 证 明 当 b=1 时 ,等 式 (61) 等 价 于 等 式 (23)。 提 示 : 我 们 有 
1 (a) = (一 US (— na)™ 


n'a Lm(m -1)(m—-n—-1)! 


55.[HM43] 推广 在 定理 P 之 后 讨论 的 Schay-Spruth 模型 到 大 小 为 上 的 M 个 桶 的 情况 。 证 

明 C(z) 等 于 Q(z)/(B(z) 一 z), 其 中 Q(z) 是 次 数 为 5 的 多 项 式 且 Q(1)=0。 证 明 探 查 的 平均 
次 数 是 

1 








Mw ， 1/_1 呈 1 1B(1) -5 二 1) 
1+ NMC) = 1+ (T+ To 2  B"(1)-56 ) 


其 中 qi1，"…,9s-1 是 Q(z)/(z 1 ) 的 根 。 以 泊 松 近似 式 P(z) 一 eoltz 2) 代替 二 项 式 概率 分 布 
B(z), 其 中 a= N/Mo ,使 用 Lagrange 求 逆 公 式 (参见 等 式 2.3.4.4-(21) 和 习题 4.7-8) ,简化 你 的 
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答案 成 为 等 式 (61)。 

56.[HM43] 推广 定理 KK, 得 到 对 于 使 用 大 小 为 5 的 桶 的 线性 探查 之 精确 分 析 。 当 这 个 表 
变 满 (N = Mb) 时 ,在 一 次 成 功 的 查找 中 探查 的 渐 近 次 数 是 多 少 ? 

57.[M47] 车 均匀 地 选 定 各 探查 序列 的 概率 ,是 否 能 使 Cn 的 值 相对 于 所 有 的 开 式 寻 址 方 
法 来 说 成 为 极 小 ? 

58.[M21 ](S.C. Johnson) 求 出 在 定理 U 的 意义 下 等 价 于 均匀 散 列 的 10,1,2,3,41 的 10 个 排 
列 。 

59.[M25] 证 明 , 如 果 选 定 排列 的 一 个 概率 , 它 在 定理 U 的 意义 下 等 价 于 均匀 散 列 , 则 当 M 
充分 大 时 ,对 于 任何 固定 的 指数 a ,具有 非 0 概率 的 排列 数 超过 M* 。 

60.[M47] 如 果 一 个 开 式 寻 址 方案 恰好 使 用 M 个 探查 序列 ,其 中 每 个 序列 以 h(K ) 的 每 个 
可 能 的 值 开始 ,而 每 一 个 可 能 的 值 都 以 1/M 的 概率 出 现 , 则 称 此 方案 为 单 散 列 方案 。 

问 (在 Cw 为 极 小 的 意义 下 ) 最 好 的 单 散 列 方案 是 否 渐 近 地 比 由 (29) 描 述 的 随机 方案 更 好 ? 
特别 是 当 M->co 时 ,是 否 Cuw 之 1+ 0 十 + O(a )? 

61.[M46] 在 习题 46 中 分 析 的 方法 ,是 否 是 在 习题 60 意义 下 最 坏 的 单 散 列 方案 ? 

62.[M49] 如 果 在 习题 44 的 记号 下 ,对 于 所 有 的 KK 增 量 pl, ,pv 1 都 是 固定 的 , 则 称 
单 散 列 方案 是 循环 的 。( 这 样 的 方法 的 例子 是 在 习题 20 和 47 中 考虑 的 线性 探查 和 序列 。) 一 个 最 
优 的 单 散 列 方案 是 这 样 的 一 个 方案 ,对 于 一 个 给 定 的 M, 对 于 所 有 (M 一 1)!* 个 单 散 列 方案 说 
来 , 它 的 Cw 是 极 小 的 。 当 M 志 5 时 ,最 好 的 单 散 列 方案 是 循环 的 。 这 对 于 所 有 的 M 部 成 立 吗 ? 

63.[M25] 如 果 在 散 列 表 中 反复 地 进行 随机 的 插入 和 删 去 , 则 平均 需要 作 多 少 次 独立 的 插 
入 ,才能 使 所 有 M 个 位 置 至 少 被 占用 过 一 次 ? (这 是 对 单元 简单 地 标记 为 “已 删 去 ”的 删除 方法 
出 现 故 障 的 平均 时 间 ) 

64.[M41] 试 分 析 算 法 R( 通 过 线性 探查 的 删 去 ) 的 预期 的 特性 。 平均 将 实施 步骤 R4 多 少 
次 ? 

P65.[20] (可 变 长 的 键 码 ) 在 散 列 表 的 许多 应 用 中 ,处 理 的 是 任意 长 字符 串 的 键 码 。 在 这 样 
的 情况 下 ,我 们 不 能 像 在 本 节 的 程序 中 那样 ,把 键 码 简单 地 存 人 表 中 。 在 MIX 计 算 机 上 ,在 散 列表 
中 处 理 可 变 长 键 码 的 好 方法 应 是 怎样 的 ? 

66.[25](Ole Amble,1973) 在 开 式 散 列 表 中 插入 键 码 时 能 否 利 用 它们 的 数值 或 字母 顺序 ,使 
得 用 算法 工 或 算法 D 进行 查找 时 ,只 要 一 遇 到 小 于 查找 变 元 的 键 码 , 便 知 查找 已 失败 ? 

67.[M41] 如 果 算 法 工 以 分 别 的 散 列 地 址 a1a，…an 插入 NN 个 键 码 , 令 4d; 是 第 ; 个 键 码 同 
它 的 原 地 址 a 的 位 移 量 ; 则 Cy=1+ (di1+ d2+*…+ dn)/N。 定 理 P 告 诉 我 们 诸 a 的 排列 对 于 和 
di+ d+…dn 没有 影响 。 然 而 这 样 的 排列 却 可 能 激烈 地 改变 和 di + d+… + dN。 例 如 , 散 列 
序列 12…N-1N-1 使 did2…dn_idn=00…0N-1 和 di=(N 一 1)”, 而 它 的 反射 N-1N 
-1…2 1 导致 温和 得 多 的 位 移 0 1…11, 对 于 它 2di=N-1l。 

a)aias…an 的 哪 一 个 重新 安排 使 池 d5 极 小 化 ? 

b) 说 明 怎 样 来 修改 算法 L 使 得 在 每 次 插入 之 后 它 维持 位 移 量 的 一 个 极 小 方差 集合 ? 

c) 确 定 带 有 和 不 带 有 这 个 修改 的 避 di 的 平均 值 。 

68.[M41] 通过 算法 工 的 一 次 成 功 查 找 中 平均 探查 次 数 的 方差 是 多 少 ?” 特别 是 ,在 习题 67 
的 记号 下 (di+ 4d;+… + dw)? 的 平均 值 是 多 少 ? 

69.[M25] ( 姚 期 智 ) 证 明 在 习题 62 意义 下 的 所 有 循环 的 单 散 列 方案 满足 不 等 式 Cow 之 


让 (1+1J(1-a))s[ 提 示 :证 明 一 个 不 成 功 的 查找 恰好 花费 次 探查 的 概率 是 ps 二 (MN) 
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70.LBM43] 试 证 明 使 用 双 散 列 为 插 人 第 (xcM+1) 项 所 需 的 预期 探查 数 至 多 是 使 用 均匀 探 
查 插 和 人 第 (aM + wO((log MJ17M) ) 项 所 需要 的 预期 数 。 

71.[40] 当 把 算法 C 修改 成 如 正文 中 所 描述 的 那样 适合 于 外 部 查找 时 , 试 对 它 的 特性 做 实 
验 。 

了 72.[LM28]( 万 能 散 列 ) 想 像 一 个 巨大 的 和 矩阵 及 , 它 对 于 每 个 可 能 的 键 码 都 有 一 个 列 。 瑟 的 
元 束 被 编号 为 0 和 M-1 之 间 的 数 。 五 的 行 表示 散 列 函数 。 如 果 太 的 任何 两 列 至 多 在 RIM 行 
处 相 一 致 ,其 中 R 是 行 的 总 数 , 则 说 五 定义 了 散 列 画 数 的 一 个 万 能 类 。 

a) 试 证 明 ,如 果 互 是 在 这 个 意义 下 万 能 的 ,而 且 如 果 我 们 通过 随机 地 选择 五 的 一 行 来 选择 
一 个 散 列 函数 hh, 则 在 分 开 拉 链 的 这 个 方法 (图 38) 中 包含 任何 给 定 的 键 码 K 的 表 列 的 预 
期 大 小 ,在 我 们 插入 N 个 不 同 的 键 码 KK| ,KK，,…, Kn 的 任何 集合 之 后 ,将 是 三 1 + N/M 。 
b) 假 设 (9) 中 的 每 个 六 是 随机 地 选择 的 从 所 有 字符 的 集合 到 集合 10,1,…,M -1 的 映射 ,证 
明 这 对 应 于 散 列 函数 的 万 能 类 。 
c) 如 果 对 于 所 有 ;,h;(0)=0, 但 对 于 z 关 0,h;(z) 是 随机 的 ,(b) 的 结果 仍 将 成 立 吗 ? 
73.[M26] (Carter 和 Wegman) 证 明 , 即 使 当 h 不 是 完全 随机 的 函数 时 ,上 题 的 部 分 (2 ) 仍 
成 立 ,但 它们 有 下 列 特殊 形式 之 一 :(i) 令 zi 是 二 进 数 (8 616;0)2; 则 h(x) =(aio 1 
b(n-D+t 二 ajibii+ ajobio) mod M, 其 中 每 个 a 是 随机 地 选择 modulo M 的 。(ii) 设 M 是 质 
数 , 并 假定 0 二 xz)< M, 则 (zj)= (ajz;+6)) mod M, 其 中 a; 和 6b; 是 随机 地 选择 modulo M 的 。 
74.[M29] 设 瓦 定义 一 个 散 列 函 数 万 能 类 。 证 明 或 反 驱 :给 定 任何 N 个 不 同 的 列 ,并 且 随 
机 地 选择 任何 行 , 则 在 这 些 列 中 0 的 预期 数 是 DO(1L) 和 O(NAM)。[ 于 是 ,在 分 开 拉链 方法 中 的 每 
个 表 列 都 将 有 这 个 预期 的 大 小 。] 
75.[M26j 证 明 或 反驳 关于 (9) 的 散 列 函数 的 下 列 命题 , 当 h; 是 独立 随机 函数 时 4: 
a) 对 于 所 有 0 三 mM,h(K)=m 的 概率 是 1/M。 
b) 如 果 天 天 天” , 则 对 于 所 有 0 志 m,m <M,h(K)=m 和 h(K')=m 的 概率 是 1/M?。 
c) 如 果 KK ,K 和 天" 不 相同 , 则 对 于 所 有 0 过 rm ,mm <M,h(K)=m,h(K’)=m 和 hh 
(K”)= m 的 概率 是 1/M- 。 
d) 如 果 开 ,K ,K 和 K” 不 相同 , 则 对 于 所 有 0 过 mm ,m ,m” ”<M_,h(K)=m,h(K’)= 
m ,h(K”)=m 和 h(K”)=m” 的 概率 是 1/M 。 
76.[M21] 提出 一 个 方法 对 于 具有 可 变 长 的 键 码 修改 (9) ,并 保持 万 能 散 列 的 性 质 。 
77.[M22」 设 互 定义 从 32 个 二 进位 键 码 到 16 个 二 进位 键 码 的 散 列 函数 的 一 个 万 能 类 (于 
是 在 习题 72 的 记号 下 太 有 2* 个 列 , M =2%)。 一 个 256 个 二 进位 的 键 码 可 以 看 作 是 八 个 32 个 
二 进位 部 分 zl zz z3 Z4 Xs Xe 27 2z8 的 连接 ;我 们 可 以 通过 散 列 函数 hs(ha(hs(hi(zxi)hi(zx,)) 
ha(hi(za)hi( ra)) ) hs (ha (hi (rs) hi (re)) he AGOZz7)AGzs)))) ,把 它 映 射 到 一 个 16 个 二 进位 
的 地 址 ,其 中 hi,h,,h3 和 hs 是 的 随机 和 独立 地 选择 的 行 。( 这 里 ,例如 h(x1)h1(zx,) 代 表 通 
过 连接 hi(zi) 和 hi(zs) 得 到 的 32 个 二 进位 的 数 。) 试 证 明 两 个 不 同 的 键 码 散 列 到 相同 地 址 的 概 
率 小 于 2"“。[ 这 个 方案 要 求 比 (9) 少 很 多 的 随机 选择 。] 
She made a hash of the proper names, to be sure. 
为 了 保险 , 训 伐 了 对 于 专用 和 名字 的 一 次 表 列 。 
Grant Allen (The Tents of Shem ,1889) 
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我 们 已 经 完成 了 对 于 主键 码 的 查找 , 即 唯一 地 确定 文件 中 一 个 记录 的 键 码 查找 
的 研究 。 但 有 时 也 有 必要 不 是 按 主 键 码 而 是 按 记 录 中 其 它 字 段 的 值 进行 查找 ;这 些 
其 它 的 字段 通常 称 为 辅助 键 码 或 记录 的 属性 。 例 如 ,在 一 个 包含 某 大 学 学 生 信 息 的 
注册 文件 中 ,可 能 希望 查找 来 自 俄 北 俄 州 不 是 专攻 数学 或 统计 学 的 二 年 级 学 生 ;或 
者 查找 所 有 未 婚 的 说 法 语 的 研究 生 中 的 女生 ;等 等 。 

一 般 我 们 假定 ,每 个 记录 包含 有 知 干 属性 , 而 我 们 要 查找 其 某 些 属性 具有 某 些 
值 的 所 有 记录 。 指 定 所 需 记 录 的 说 明 称 作 一 个 查询 。 查 询 通常 限于 下 列 三 种 类 型 。 

a) 简 单 查询 , 它 给 出 一 个 特定 属性 的 一 个 特定 的 值 ;例如 “MAJOR = MATHEM-AT- 
ICS” ;或 者 “RESIDENCE. STATE = OHIO”。 

b) 范 围 查询 , 它 给 出 一 个 特定 属性 值 的 一 个 特定 的 范围 例如,“CosT < 
$18.00”; 或 者 “21< AGE 过 23”。 

Cc) 布尔 查询 , 它 由 与 操作 AND,OR,NOT 相 结 合 的 上 述 类 型 组 成 ;例如 

“(CLASS = SOPHOMORE ) AND( RESIDENCE . STATE = OHIO) 
AND NOT( (MAJOR= MATHEMATICS)OR(MAJOR= STATISTICS))” 

对 于 这 三 类 查询 ,发 现 有 效 查 找 技术 的 问题 已 经 十 分 困难 。 因 此 ,通常 不 再 考 
虑 更 复杂 类 型 的 查询 问题 。 例 如 ,一 个 铁路 公司 可 以 有 记载 它 的 所 有 货车 当前 状态 
的 一 个 文件 ;但 不 允许 直接 提 像 “ 找 出 在 距 西 雅 图 500 英里 内 所 有 空冷 藏 车 "这 类 查 
询 ,除非 “ 同 西雅图 的 距离 ”是 保存 在 每 个 记录 内 的 一 个 属性 而 不 是 由 其 它 属性 导出 
的 一 个 复杂 函数 。 而 且 使 用 除 RND,OR 和 NOT 之 外 的 逻辑 量词 ,将 引进 仅仅 受 提出 
查询 者 的 想像 所 限制 的 进一步 的 复杂 性 ;例如 ,给 定 爸 球 统计 的 一 个 文件 ,我 们 可 以 
问 及 在 晚 场 比赛 中 最 长 的 连续 的 击 中 表演 。 这 些 例子 很 复杂 的 ,但 它们 仍 可 以 通过 
扫描 一 个 适当 排列 的 文件 来 处 理 ; 其 它 的 查询 甚至 更 困难 ,例如 , 求 在 五 个 或 更 多 的 
属性 上 有 相同 值 的 所 有 记录 对 (而 不 必 确 定 哪 一 些 属 性 必须 匹配 )。 这 样 的 查询 可 
以 认为 属于 一 般 程 序 设 计 的 任务 而 超出 了 本 书 讨 论 的 范围 ,但 通常 它们 可 被 分 成 属 
于 这 里 所 考虑 的 问题 类 型 的 一 些小 问题 。 

在 我 们 开始 研究 辅助 键 码 检索 的 各 种 技术 之 前 ,重要 的 是 考虑 这 个 课题 的 经 济 
效益 。 尽 管 大量 的 应 用 都 能 塞 进 上 面 概 述 的 三 类 查询 的 一 般 框框 里 ,但 是 这 些 应 用 
中 有 许多 并 不 真正 适合 于 我 们 将 要 研究 的 复杂 技术 ,而 且 它 们 中 的 某 些 用 人 工 做 比 
用 机 需 做 倒 更 好 些 ! 人 们 攀登 珠穆朗玛 峰 ,“ 因 为 它 是 客观 存在 " ,而且 因为 已 经 发 
展 了 使 得 攀登 成 为 可 能 的 工具 ;类 似 地 ,当面 对 着 数据 的 高 山 时 ,人 们 试图 在 一 个 联 
机 实时 环境 中 ,利用 一 合计 算 机 找 出 对 他 们 所 能 想像 到 的 最 为 困难 的 查询 的 回答 ， 
而 无 需 顾 及 代价 。 所 期 望 的 计算 是 可 能 的 ,但 未 必 对 每 一 个 人 的 应 用 都 合适 。 

例如 ,考虑 下 列 对 于 辅助 键 码 检索 的 简单 方法 :在 成 批 化 一 些 查 询 之 后 ,我们 可 
以 顺序 地 进行 对 整个 文件 的 查找 ,检索 出 所 有 有 关 的 记录 (“成 批 化 " 指 的 是 在 处 理 
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任何 查询 之 前 , 先 积 累 起 一 批 这 样 的 查询 )。 如 果 文 件 不 太 大 并 且 这 些 查 询 不 需要 
立即 处 理 的 话 ,这 个 方法 是 十 分 令 人 满意 的 。 甚 至 对 于 磁带 文件 也 可 以 使 用 ,而 且 
它 仅仅 在 计算 机 有 空间 时 才 使 用 它 ,所 以 就 设备 代价 来 说 , 它 往往 非常 经 将。 而 且 
它 甚 至 能 处 理 上 面 讨 论 的 “到 西雅图 的 距离 "这 样 的 计算 查询 。 

简化 辅助 键 码 检索 的 另 一 个 简单 方式 ,是 提供 给 人 们 适当 的 打印 好 的 索引 信 
息 ,让 他 们 自己 做 一 部 分 工作 。 这 通常 是 最 合理 和 最 经 济 的 方式 (当然 ,假定 当 打 印 
新 的 索引 时 , 旧 的 索引 已 被 回炉 )。 特 别 是 因为 当 人 们 能 方便 地 访问 大 量 数据 时 ,他 
们 倾 问 于 去 注意 那些 有 趣 的 模式 。 

对 某 些 应 用 来 说 ,上 述 简单 方案 的 处 理 不 能 令 人 满意 ,这 些 应 用 都 涉及 非常 大 
型 的 文件 ,对 于 这 样 的 文件 ,查询 的 快速 回答 很 重要 。 例 如 ,如 果 不 断 地 有 好 几 个 用 
户 同时 查询 文件 ,或 者 如 果 这 些 查询 是 机 器 而 不 是 人 所 生成 的 ,就 会 出 现 这 种 情况 。 
在 本 节 中 ,我 们 的 目标 是 要 了 解 在 有 关 文 件 结构 的 各 种 假定 之 下 ,在 通常 的 计算 机 
上 ,对 于 辅助 键 码 检 索 我 们 能 做 得 多 好 。 全 而 , 随 着 计算 的 费用 继续 显著 地 减少 ,我 
们 将 要 讨论 的 方法 在 实用 中 正 变 得 越 来 越 可 行 。 

为 了 处 理 这 一 问题 ,已 经 提出 了 大 量 好 的 想法 ,但 是 (如 同 读者 将 能 从 所 有 这 些 
预先 警告 式 的 注释 中 猜测 到 的 那样 ) 这 些 方法 决 不 意味 着 它们 都 像 主键 码 检 索 算法 
那样 好 。 由 于 文件 及 应 用 的 多 样 性 ,我 们 不 可 能 对 已 经 考虑 到 的 所 有 可 能 性 给 出 完 
备 的 讨论 ,也 不 可 能 分 析 每 个 算法 在 典型 环境 中 的 特性 。 本 市 的 剩 下 部 分 介绍 已 经 
提出 的 一 些 基本 方法 ,至 于 在 每 一 个 具体 情况 下 什么 样 的 技术 组 合 是 最 适当 的 ,这 
个 问题 留 给 恋 者 自己 去 想 。 


反 文 件 用 于 辅助 键 码 检索 的 第 一 类 重要 的 技术 是 反 文 件 的 思想 。 这 并 不 意 
味 着 文件 被 上 下 颠倒 , 它 指 的 是 记录 和 属性 的 作用 被 逆转 。 我 们 不 是 列 出 一 个 给 定 
文件 的 各 属性 ,而 是 列 出 有 一 个 给 定 属性 的 各 记录 。 

在 日 常生 活 中 ,经 常 地 遇 到 反 文 件 (在 其 它 名 称 之 下 )。 例 如 ,对 应 于 俄 英 字典 
的 反 文件 是 一 部 英 俄 字典 。 对 应 于 本 书 的 反 文件 是 附 于 本 书 末 尾 的 案 引 。 财 会 人 
员 传 统 地 使 用 “ 双 项 憩 记 ” ,其 中 所 有 的 交易 同时 记 入 现金 账 和 顾客 账 , 于 是 当前 的 
现金 状况 和 顾客 的 债务 部 很 容易 查阅 。 

一 般 地 说 ,一 个 反 文件 并 不 是 独立 的 , 它 要 同 原来 的 未 反 过 来 的 文件 一 起 使 用 。 
它 提供 了 重复 的 元 余 信息 以 便 加 速 辅助 键 码 的 检索 。 每 个 反 文件 由 一 些 反 表 列 组 
成 , 即 其 某 个 属性 具有 给 定 的 值 的 所 有 记录 的 表 。 

正 像 所 有 的 表 一 样 ,在 一 台 计 算 机 内 的 反 表 可 以 用 许多 方式 来 表示 ,而 且 不 同 
的 表示 方式 适用 于 不 同 的 场合 。 某 些 辅助 键 码 字段 仅仅 有 两 个 值 ( 例 如 ， 人 性 别 属 
性 ) ,而 对 应 的 反 表 却 十 分 长 ;但 是 其 它 字段 一 般 都 有 大 量 的 值 , 而 重复 较 少 (例如 ， 
“电话 号 码 属性 )。 

例如 ,想像 我 们 要 在 一 本 电话 德 中 存储 信息 ,使 得 所 有 的 项 都 可 以 根据 名 字 、 电 
话 号 码 或 居住 地 址 进行 检索 。 一 个 简单 的 解决 办 法 是 作成 三 个 分 开 的 文件 ,分别 面 
向 对 于 每 种 类 型 键 码 的 检索 。 另 一 个 思想 是 组 合 这 些 文件 ,例如 可 以 建立 三 个 散 列 
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表 ,分 别 用 作 拉 链 方法 的 表 头 。 在 后 一 种 方案 中 ,文件 的 每 个 记录 将 是 这 三 个 表 中 
的 一 个 元 素 ,因而 它 将 包含 三 个 链接 字段 ;这 就 是 在 2.2.6 小 节 图 13 中 说 明 过 了 的 
和 下 面 要 进一步 讨论 的 所 谓 多 重 表 方法 。 第 三 种 可 能 性 是 模拟 图 书馆 卡片 目录 ,在 
那里 作者 卡片 、 书 名 卡片 以 及 主题 卡片 分 别 按 字母 顺序 排 在 一 起 ,用 类 似 的 方式 可 
把 三 个 文件 组 合成 一 个 超级 文件 。 

考察 本 书 索 引 所 用 的 格式 , 即 可 得 到 关于 反 表 表示 的 进一步 的 思想 。 在 有 些 辅 
助 键 码 字段 中 ,每 个 属性 值 一 般 有 五 个 左右 的 项 ,此 时 我 们 只 需 作 一 个 简短 的 顺序 
表 , 其 中 首先 列 出 键 码 的 值 , 后 面 跟 以 记录 的 位 置 (类 似 于 一 本 书 的 索引 中 的 页 数 )。 
如 果 有 关 的 记录 趋同 于 连续 地 堆积 , 则 一 个 “范围 说 明 " 码 (例如 ,页 S21 一 9542) 是 有 
用 的 。 如 果 文 件 的 记录 经 常 要 重新 分 配 , 则 在 反 文 件 中 使 用 主键 码 来 代 蔡 辅助 键 码 
可 能 更 好 ,使 得 当 位 置 改 变 时 也 不 必 进 行 更 改 ; 例 如 ,对 于 “圣经 "段落 的 引用 总 是 通 
过 章 和 节 给 出 ,而 对 于 某 些 书 的 索引 都 是 基于 他 数 而 不 是 按 页 数 给 出 的 。 

这 些 思 想 当 中 没有 一 个 特别 适合 于 像 “ 性 别 " 这 样 两 个 值 的 属性 。 在 这 种 情况 
下 ,当然 仅仅 需要 一 个 反 表 ,因为 非 男性 必然 是 女性 而 且 反 之 亦 然 。 如 果 每 个 值 同 
大 约 一 半 的 文件 项 有 关 , 则 反 表 将 惊人 地 长 ,但 是 ,在 一 台 二 进 计算 机 上 可 以 使 用 一 
种 二 进位 串 表 示 法 ,每 个 二 进 制 位 确定 一 个 具体 记录 的 值 , 即 能 相当 好 地 解决 这 个 
问题 。 例 如 二 进位 串 01001011101… 可 能 意味 着 文件 中 的 头 一 个 记录 指 的 是 一 个 
男子 ,第 二 个 记录 指 的 是 一 个 女子 ,下 两 个 记录 指 的 都 是 男子 ,等 等 。 

这 样 的 方法 足以 处 理 对 特定 属性 值 的 简单 查询 。 稍 作 推 广 即 可 以 处 理 范 围 查 
询 ,不 过 必须 用 某 个 以 比较 为 基础 的 查找 方案 (6.2 节 ) 来 代替 散 列 。 

对 于 像 “(MAJOR = MATHEMATICS) AND (RESIDENCE. STATE = OHIO) "这样 的 布尔 查 
询 ,我 们 需要 把 两 个 反 文 件 交 在 一 起 。 这 可 以 用 和 若干 种 方法 来 进行 ;例如 ,如 果 两 个 
表 都 是 有 序 的 , 则 对 每 个 表 进 行 一 次 扫描 将 选 出 所 有 共同 的 项 。 或 者 ,我 们 可 以 选 
出 最 短 的 表 并 考查 它 的 每 个 记录 , 校 验 其 它 的 属性 ;但 这 个 方法 仅 对 AND 有 效 ,而 对 
OR 无 效 ,而 且 它 对 于 外 部 文件 没有 了 吸引 力 ,因为 它 要 对 许多 不 满足 查询 要 求 的 记录 
进行 访问 。 

同样 的 考虑 表明 ,上 面 所 描述 的 多 重 表 组 织 ,对 于 在 一 个 外 部 文件 上 的 布尔 查 
询 是 低 效 的 ,因为 它 涉 及 许多 不 必要 的 访问 。 例 如 ,想像 如 果 本 书 的 索引 被 组 织 
一 个 多 重 表 的 形式 , 则 会 发 生 什 么 情况 。 这 意味 着 ,索引 的 每 个 项 都 将 仅仅 指出 提 
到 该 主题 的 最 后 一 页 ;然后 在 每 一 页 上 ,对 于 该 页 的 每 个 主题 ,又 有 对 于 该 主题 的 上 
一 次 出 现 的 进一步 索引 。 为 了 找 出 有 关 “[ 算 法 的 分 析 ] 和 [ (外 部 排序 ) 或 (外 部 查 
找 )]" 的 所 有 页 面 ,必须 翻动 许多 页 。 男 一 方面 ,通过 只 查看 实际 出 现 该 索引 的 两 个 
页 ,对 反 文件 作 简 单 的 操作 以 便 找 出 满足 查询 的 页 的 最 小 子 集 , 便 可 解决 同样 的 查 
询问 题 。 

当 一 个 反 表 被 表示 作 一 个 二 进位 串 时 ,简单 查询 的 布尔 组 合 当 然 容 易 实现 , 因 
为 计算 机 可 以 用 相当 高 的 速度 对 二 进位 串 进 行 操 作 。 在 某 些 混合 查询 中 , 某 些 属性 
被 表示 作 由 记录 号 码 排 成 的 顺序 表 ,而 其 它 属 性 表示 作 二 进位 串 ,此 时 不 难 把 顺序 
的 表 转 换 成 二 进位 串 ,然后 对 这 些 二 进位 串 实施 布尔 操作 。 
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这 里 ,给 出 一 个 假设 的 应 用 的 定量 例子 ,可 能 会 有 帮助 。 如 同 5.4.9 小 节 所 述 ， 
假定 我 们 有 每 个 为 40 个 字符 的 1 000 000 个 记录 ,而 且 文 件 存储 在 MIXTEC 磁盘 上 。 
文件 本 身 因 此 填 满 两 个 磁盘 组 , 反 表 大 概 将 填 满 更 多 个 磁盘 组 。 每 道 包 含 5000 个 
字符 =30 000 个 二 进位 ,所 以 一 个 具体 属性 的 反 表 至 多 花费 34 道 ( 当 二 进位 串 的 表 
示 为 最 短 时 出 现 这 个 极 大 道 数 )。 假 设 有 一 个 稍微 复杂 些 的 查询 , 它 涉及 10 个 反 表 
的 一 个 布尔 组 合 ;在 最 坏 的 情况 下 ,我 们 将 要 从 反 文 件 读 340 道 的 信息 ,总 共 花 费 
340 X25ms 二 8.5s 的 阅读 时 间 。 平 均 的 等 待 延 迟 将 大 约 是 读 时 间 的 一 半 , 但 通过 小 
心 的 程序 设计 有 可 能 消除 这 个 等 待 。 通 过 把 每 个 二 进位 串 表 列 的 第 一 个 道 存 人 一 
个 柱 面 中 ,而 每 个 表 列 的 第 二 个 道 存 于 下 一 个 柱 面 当 中 等 ,将 消去 大 多 数 寻找 时 间 ， 
所 以 我 们 可 以 估计 寻找 时 间 至 多 大 约 是 34 Xx 26ms 守 0.9s( 如 果 包 含有 两 个 磁盘 组 ， 
则 是 这 数 的 两 倍 )。 最 后 ,如 果 gq 个 记录 满足 查询 , 则 对 于 每 个 记录 ,我 们 将 花费 大 
约 g Xx (60ms( 寻 找 )+ 12.5ms( 等 待 )+0.2ms( 读 )) 的 额外 时 间 来 取出 它 以 便 进 行 
下 一 步 处 理 。 于 是 ,为 处 理 这 个 稍为 复杂 的 查询 ,总 计 预 期 时 间 的 乐观 佑 计 大 约 是 
<(10+0.073cg)s。 这 与 在 同样 的 假定 下 但 不 使 用 任何 反 表 以 最 高 速度 读 整 个 文件 
的 210s 时 间 形 成 对 照 。 

这 个 例子 表明 在 磁盘 存储 中 空间 的 最 优化 同时 间 最 优化 是 紧密 相关 的 ;处 理 反 
表 的 时 间 大 致 就 是 寻找 和 读 它 们 所 需 的 时 间 。 

上 面 的 讨论 或 多 或 少 假定 , 当 我 们 查询 文件 时 , 它 不 增长 或 收缩 ;如 果 需 要 经 党 
更 改 , 则 应 该 作 什 么 呢 ?” 在 许多 应 用 中 ,只 需 累 积 一 批 更 改 的 要 求 ,而 且 当 不 需要 回 
答 查 询 时 ,在 空闲 的 时 间 里 处 理 它 们 即 可 。 或 者 ,如 果 更 改 的 文件 优先 级 较 高 , 则 B 
树 (6.2.4 小 节 ) 的 方法 是 有 吸引 力 的 。 反 表 的 整个 集合 可 被 作成 一 个 巨大 的 B 树 ， 
同时 对 叶 作 特殊 的 约定 使 得 分 支 节点 包含 键 码 的 值 ,而 诸 叶 既 包 含 键 码 又 包含 记录 
指针 的 表 。 对 文件 的 修改 也 可 通过 我 们 以 下 将 要 讨论 的 其 它 方法 处 理 。 


几何 数据 ”大量 的 应 用 涉及 在 二 维 或 更 多 维 的 空间 中 的 点 、 线 和 形状 。 解 决 面 
器 距离 的 最 初 的 方法 之 一 是 由 Bruce McNutt 于 1972 年 提出 的 “邮局 树 ”。 例 如 , 假 
设 给 定 z 的 值 ,我 们 希望 来 处 理 像 “最 靠近 z 的 城市 是 哪 一 个 ?” 这 样 的 查询 。Mc- 
Nutt 树 的 每 个 节点 对 应 于 一 个 城市 y 和 一 个 “测试 半径 ”x ;这 个 节点 的 左 子 树 对 应 
于 随 继 进入 树 的 这 个 部 分 的 所 有 城市 z ,使 得 从 y 和 z 的 距离 全 xr +6, 类 似 地 右 子 
树 是 对 于 距离 宇 r -6 的 那些 城市 。 这 里 6 是 一 个 给 定 的 容 差 。 和 y 的 距离 在 7 一 
6 和 r+6 之 间 的 城市 必须 进入 到 两 个 子 树 中 。 在 这 样 一 株 树 中 的 查找 使 得 找 出 在 
一 个 给 定点 的 距离 6 之 内 的 所 有 城市 成 为 可 能 (参见 图 45)。 

McNutt 和 Edward Pring 基于 这 个 思想 进行 了 若干 次 试验 ,并 且 以 随机 次 序 使 
用 了 美国 大 陆 中 231 个 人 口 最 多 的 城市 作为 一 个 示例 数据 库 。 他 们 以 有 规则 的 方 
式 使 测试 半径 收缩 , 当 向 左 时 以 0.677 代替 ,而 当 向 右 时 以 0.57r 代 蔡 ,但 当 取 两 个 
连续 的 右 分 支 的 第 二 个 时 r 维持 不 变 。 结 果 是 ,在 对 于 6 = 20 英里 的 树 内 ,要 求 
610 个 节点 ,而 对 于 r=35 英里 的 树 内 要 求 1600 个 节点 。 图 45 示 出 他 们 最 小 的 树 
的 顶层 几 级 。( 在 这 株 树 剩 下 的 一 些 级 中 佛罗里达 的 奥兰多 出 现在 杰 元 还 维尔 和 迈 
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图 45 “邮局 树 ” 例 子 的 顶部 诸 级 。 为 了 查找 一 个 给 定点 x 附近 的 所 有 城市 ， 

由 根 点 开始 ;如果 xz 在 距离 拉 斯 维 加 斯 1800 英里 之 内 则 向 左 , 否 则 就 向 右 ; 

然后 重复 这 过 程 直 到 遇 到 一 个 终端 节点 。 树 构造 的 方法 确保 在 这 个 查找 期 间 

将 会 找到 所 有 和 z 的 距离 在 20 英里 之 内 的 城市 
阿 密 之 下 。 某 些 城 市 十 分 频繁 地 出 现 ; 例 如 ,这 些 节点 中 有 17 个 都 是 马萨诸塞 州 的 
布 洛克 赖 !) 
随 着 6 的 增加 ,文件 的 迅速 增长 表明 ,邮局 树 大 概 有 有 限 的 用 途 。 通 过 直接 地 
使 用 每 个 点 的 坐标 ,并 把 坐标 当 作 属性 或 辅助 键 码 ,我 们 可 以 做 得 更 好 ;然后 我 们 可 
以 基于 键 码 的 范围 来 作 布尔 查询 。 例 如 ,假设 文件 记录 涉及 北美 诸城 市 , 而且 查询 
问 及 满足 
(21.49° 过 纬度 之 37.41°)AND(70.34° 过 经 度 过 75.72°) 


的 那些 城市 。 查 阅 地 图 可 看 出 ,许多 城市 满足 这 个 纬度 范围 , 必 有 许多 城市 满足 经 
度 范 围 , 但 是 很 难 有 任何 城市 处 于 这 两 个 范围 之 中 。 解 决 这 样 的 正 交 范围 查询 的 一 
个 方法 是 相当 粗略 地 分 划 所 有 可 能 的 纬度 和 经 度 的 值 , 且 每 个 属性 仅仅 有 很 小 几 类 
(例如 ,通过 在 下 一 个 较 小 的 5° 的 倍数 处 截断 ) ,然后 对 于 每 一 (纬度 ,经度 ) 类 组 合 有 
一 个 反 表 ,这 就 好 像 有 对 于 每 个 局 部 区 域 各 一 页 的 地 图 。 利 用 5" 的 区 间 , 上 边 的 查 
询 将 参考 八 个 页 , 即 (20 ,70°),(25°,70"),…,(35”,75")。 现 在 需要 对 于 这 些 页 中 的 
每 一 页 人 处理 范围 查询 ,或 者 通过 在 这 个 页 内 进行 一 个 更 细 的 分 划 , 或 者 通过 直接 查 
阅 诸 记录 本 身 , 采 用 哪 种 方法 依赖 于 对 应 于 该 页 的 记录 个 数 。 在 某 种 意义 下 ,这 是 
在 每 个 内 部 节点 处 具有 二 维 分 支 的 一 个 树 结 构 。 

对 于 这 个 方法 的 一 个 实质 性 的 精心 改进 , 称 作 一 个 格子 文件 ,是 由 J. Niev- 
ergelt ,H. Hinterberger 以 及 K. C. Sercik 研制 的 [ACM Trans. Database Systems 9 
(1984),38 一 71」。 如 有 果 每 个 点 x 都 有 & 个 坐标 (zi ,zi) ,他 们 把 第 i 个 坐标 的 值 
划分 成 以 下 的 范围 


~ = go0 < Bl<"< gr =+% (1) 
并 且 通 过 确定 下 标 (71，… 入 ) 使 得 对 于 1 委 ; 委 4， 
0 < J; < i, Bi 委 Zi < Bi(j.+1) (2) 
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来 找 出 x。 有 一 个 给 定 的 (j1，,…,j) 的 值 的 所 有 点 称 为 单元 。 在 相同 单元 内 的 点 的 
记录 存 人 外 部 存储 的 相同 的 桶 当中 。 假 定 每 个 桶 对 应 于 一 个 维 的 矩形 区 域 或 者 
“ 超 单元 ”, 则 也 允许 桶 包含 来 自若 干 相 邻 的 单元 的 点 。 可 能 有 各 种 用 于 修改 格子 边 
界 值 g, 和 用 于 分 开 和 合并 桶 的 策略 ;例如 ,参见 K. Hinrichs,BIT 25 (198S) ,569 一 
$592;M. Regnier,BIT 25(1985),335~ 357;P. Flajolet 和 C. Puech,JACM 33 (1986 ) ， 
371 一 407, $4.2 分析 了 带 有 随机 数据 的 格子 文件 的 特征 。 

使 用 所 谓 的 四 又 树 结构 ,J.L.Bentley 和 R.A. Finkel 引进 了 处 理 正 交 范 围 查询 
的 一 个 更 简单 的 方法 [Acta Informatica 4 (1974) ,1 一 9]。 在 他 们 构造 的 二 维 情况 
下 ,这样 一 株 树 的 每 个 节点 表示 一 个 矩形 ,而 且 在 该 矩形 中 包含 诸 点 之 一 。 有 四 个 
子 树 ,相对 于 给 定点 的 坐标 ,他 们 对 应 于 原来 的 矩形 的 四 个 像 限 。 类 似 地 ,在 三 维 
中 ,有 八路 分 支 , 而 且 有 时 把 树 叫 做 入 又 树 。 一 个 维 的 四 叉 树 有 2* 路 分 支 。 

对 于 随机 四 又 树 的 数学 分 析 十 分 困难 ,但 在 1988 年 ,由 两 组 研究 人 员 独 立地 工 
作 ,确定 出 在 一 个 随机 的 & 维 四 义 树 中 对 于 第 N 个 节点 的 预期 的 插 人 时 间 的 渐 近 
形式 是 


In N + O() (3) 


参见 L. Devroye 和 L. Laforest,SICOMP 19 (1990) ,821 一 832;P.Flajolet,G.Gonnet， 
C.Puech 以 及 J. M. Robson,Algorithmica 10 (1993) ,473 一 5$00。 注 意 当 &=1 时 ,这 
个 结果 同 对 于 一 个 二 分 查找 树 的 插入 的 著名 公式 , 即 等 式 6.2.2-(5) 一 致 。P. Flajo- 
let,G.Labelle,L. Laforest 和 B. Salvy 事实 上 证 明了 ,平均 内 路 径 长 度 可 以 以 令 人 惊 
讶 地 优美 的 形式 

> (2 -D1 (1 和) (4) 
来 加 以 表达 ,而 且 因 此 借助 于 超 几 何 函 数 有 可 能 对 于 随机 四 叉 树 作 进一步 的 分 析 。 
[参见 Random Structures and Algorithms 7 (1995),117~144]。 

通过 引进 “k-d 树 ”,Bentley 甚至 更 进一步 地 继续 简化 四 又 树 表 示 ,这 种 树 在 每 
个 节点 处 仅 有 两 路 分 支 。[CACM 18 (1975) ,309 一 S17; TIEEE Transactions SE-5 
(1979) ,333 一 340j]。 如 同 在 6.2.2 小 节 中 那样 ,一 个 1-d 树 就 是 一 个 通常 的 二 分 查 
找 树 ;一 个 2-d 树 也 类 似 , 但 是 当 分 支 时 在 偶 极 上 的 节点 比较 x 坐标 ,而 在 奇 级 上 的 
节点 比较 y 坐标 。 一 般 地 说 ,一 个 &-d 树 有 带 & 个 坐标 的 节点 ,而 且 在 每 级 上 的 分 
支 仅仅 基于 坐标 之 一 ;例如 ,我 们 可 以 在 级 ! 上 按 坐 标 数 (1 mod &)+1 来 分 支 。 可 
以 使 用 基于 记录 的 顺序 号 码 或 在 内 存 中 的 位 置 的 打破 平衡 规则 以 确保 没有 两 个 记 
录 在 任何 坐标 位 置 中 一 致 。 随 机 地 增长 的 &-d 树 结果 证 实 和 通常 的 二 分 查找 树 有 
相同 的 平均 路 径 长 度 和 形状 分 布 ,因为 构成 它们 增长 基础 的 假定 和 在 一 维 情况 下 是 
一 样 的 (参见 习题 6.2.2-6)。 

如 果 文 件 不 动态 地 变化 ,我 们 可 以 通过 选择 在 每 个 节点 进行 分 支 的 中 间 值 ,来 
平衡 任何 N 节点 的 &-d 树 ,使 得 它 的 高 度 守 lg N。 于 是 我 们 可 以 确信 , 千 干 基本 类 
型 的 查询 都 将 被 有 效 地 处 理 。 例 如 ,Bentiey 证 明 , 我 们 可 以 在 O(NI- 光 ) 步 内 标识 
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出 有 上 个 确定 的 坐标 的 所 有 记录 。 如 果 坐 标 中 的 上 个 被 限制 为 子 范 围 而 且 总 共有 
个 这 样 的 记录 ,我 们 也 可 以 在 至 多 O(N! 共 +o) 步 内 找 出 位 于 一 个 给 定 的 抢 形 区 
域内 的 所 有 记录 [ 李 德 财 和 黄 尝 权 ,Acta Informatica 23 (1977) ,23 一 29]。 事 实 上 ， 
如 采 给 定 的 区 域 接近 是 立体 的 而 且 9 很 小 ,以 及 如 果 在 每 个 节点 用 于 分 支 所 选 定 的 
坐标 有 最 大 的 散 开 的 属性 值 ,Friedman, Bentley 和 Finkel[ACM Trans. Math. Soft- 
ware 3〈1977) ,209 一 226] 证 明 ,对 于 这 样 一 个 区 域 查 询 的 平均 时 间 将 仅仅 是 O(log 
Nr+9qd)。 当 在 有 维 空间 中 对 于 一 个 给 定 的 点 最 接近 的 邻 域 查找 这 样 的 &-d 树 时 , 同 
样 的 公式 适用 。 

当 &-d 树 是 随机 的 而 不 是 完美 地 平衡 时 ,对 于 上 个 确定 的 坐标 的 部 分 匹配 的 平 
均 运 行 时 间 稍 微 增加 成 GCN! ‘1f(W4) ;这 里 函数 f 是 由 以 下 方程 


(f(z)+3—-z)*(f(r)+2- 7x)!*=2 (5) 
含 荔 地 定义 的 ,因而 它 十 分 小 ;我 们 有 
0< f(r) < 0.06329 33881 23738 85718 14011 27797 33590 58170 ~ (6) 


而 且 当 z 接近 于 0.585 时 出 现 极 大 值 。[ 见 P. Flajolet 和 C. Puech,JACM 33 
(1986) ,371 一 407,$3]。 

由 于 几何 算法 的 艺术 魅力 和 巨大 重要 性 ,在 解决 高 维 查找 问题 以 及 许多 类 型 的 
相关 问题 的 技术 方面 有 了 巨大 的 增长 。 确 实 , 自 20 世纪 70 年代 以 来 , 称 为 计算 几 
何 学 的 数学 和 计算 机 科学 的 新 的 子 领域 已 经 迅速 地 发 展 起 来 。 由 J .E.Goodman 和 
J.O Rourke 主编 的 The Handbook of Discrete and Computational Geometry ( 佛 罗 里 
达州 流 卡 拉 顿 ;CRC 出 版 社 ,1997) 是 直到 1997 年 为 止 关于 该 领域 的 技术 发 展现 状 
的 一 本 出 色 的 参考 书 。 

Hanan Samet 在 两 本 互相 补充 的 书 The Design and Analysis of Spatial Data 
Structure 以 及 Applications of Spatial Data Structures (Addison-Wesley,1990) 中 ,已 经 
给 出 了 关于 二 维和 三 维 对 象 的 重要 特殊 情况 的 数据 结构 和 算法 的 广泛 的 综述 。 
Samet 指出 ,现在 把 Bentley 和 Finkel 原来 的 四 叉 树 叫做 “点 四 叉 树 "更 适当 。 “四 又 
树 " 这 个 名 称 本 身 已 经 成 为 对 于 几何 数据 的 任何 层次 分 解 的 一 个 普通 的 术语 。 


复合 属性 ”有 可 能 把 两 个 或 多 个 属性 组 合成 一 个 超级 属性 。 例 如 ,一 个 
“(CLASS,MAJOR) 属 性 "可 由 一 个 大 学 的 注册 文件 的 CLASS 字段 和 MAJOR 字段 组 合 而 
成 。 这 样 以 来 ,用 不 相交 的 短 的 表 的 并 代替 较 长 的 表 的 交 , 常 常 可 满足 查询 的 需要 。 

林 浴 又 进一步 发 展 了 属性 组 合 的 思想 [CACM 13 (1970) ,660 一 665] ,他 建议 从 
左 到 右 地 按 字 典 顺序 排列 组 合 属性 的 反 表 ,有 旦 找 贝 许多 份 ,并 以 一 种 巧妙 方式 排列 
组 合 中 的 各 属性 。 例 如 ,假设 我 们 有 三 个 属性 A,B,C; 则 可 以 形成 三 个 复合 属性 

(A,B,C), (B,C,A), (C,A,B) (7) 
而 且 对 于 其 中 的 每 一 个 ,构造 有 序 的 反 表 。( 于 是 在 第 一 个 表 中 , 诸 记 录 以 它们 A 值 
的 顺序 出 现 , 而 所 有 具 相 同 A 值 的 记录 以 B 值 的 顺序 ,然后 再 按 C 值 的 顺序 出 现 )。 
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这 种 组 织 有 可 能 满足 以 三 个 属性 的 任何 组 合 为 基础 的 查询 ;例如 ,A 和 CcC 有 特定 值 的 
所 有 记录 都 将 连续 地 出 现 于 第 三 个 表 中 。 
类 似 地 ,由 四 个 属性 A,B,C,D, 我 们 可 以 形成 六 个 组 合 属 性 
(A,B,C,D), (B,C,D,A), (B,D,A,C), (C,A,D,B), 
(C,D,A,B), (D,A,B,C) (8) 
它们 足以 回答 有 关 这 些 属性 中 一 个 、 两 个 、 三 个 或 四 个 值 的 简单 查询 的 所 有 组 合 。 


有 一 个 一 般 的 过 程 可 从 个 属性 构造 出 [ ” } 个 组 合 属性 ,其 中 & 所 到，, 这 使 得 有 


至 多 & 个 或 至 少 n-k 个 属性 值 的 特定 组 合 的 所 有 记录 ,都 将 在 组 合 的 一 个 属性 表 中 
连续 地 出 现 ( 见 习题 1)。 或 者 , 当 某 些 属性 只 有 有 限 个 值 时 ,我 们 只 需 较 少 的 组 合 
就 可 以 了 。 例 如 ,如 果 D 只 是 一 个 二 值 的 属性 , 则 通过 把 D 放 在 (7) 的 前 边 得 到 的 三 
个 组 合 

(D,A,B,C), (D,B,C,A), (D,C,A,B) (9) 
几乎 将 和 (8) 一 样 地 好 ,而 且 只 有 一 半 的 宛 余 ,因为 不 依赖 于 D 的 诸 查 询 , 可 以 只 通 
过 考察 这 些 表 之 一 的 两 个 位 置 来 进行 处 理 。 


二 进 属性 考虑 所 有 属性 都 是 二 值 的 这 一 特殊 情况 是 有 教 益 的 。 在 某 种 意义 
下 ,这 是 把 属性 组 合 起 来 的 对 立 面 ,因为 我 们 可 以 把 任何 值 表 示 成 为 二 进 数 ,而 且 把 
这 个 数 的 个 别 的 二 进位 认为 是 分 开 的 属性 。 表 1 示 出 了 涉及 “是 否 " 属 性 的 一 个 上 典 
型 文件 ;在 这 个 情况 下 , 诸 记录 代表 被 选 定 的 甜 饼 的 食谱 ,而 诸 属 性 确定 使 用 哪些 成 
分 。 例 如 ,杏仁 风味 薄 脆 饼 是 用 黄油 \ 面 粉 . 牛 奶 `. 坚 果 仁 以 及 颗粒 糖 制造 的 。 如 果 
我 们 把 表 ! 想像 作 0 和 1 的 矩阵 , 则 该 矩阵 的 转 置 ,就 是 在 二 进位 串 形式 下 的 “ 反 ，” 
文件 。 

表 1 的 右边 一 列 用 来 指出 很 少 出 现 的 特殊 项 目 。 比 起 为 每 个 项 目 都 设 一 列 来 ， 
这 样 的 方式 可 以 更 有 效 地 进行 编码 ;“ 玉 米 淀粉 ”这 一 列 可 以 类 似 地 人 处理 。 对 偶 地 ， 
我 们 可 以 发 现 对 于 “面粉 ”这 一 列 进行 编码 的 更 有 效 的 方式 ,因为 面粉 在 除 蛋 白 甜 饼 
之 外 的 每 一 行当 中 都 出 现 。 但 现在 我 们 把 这 些 考虑 放 在 一 边 , 而 简单 地 忽略 “特殊 
成 分 "一 栏 。 

让 我 们 定义 二 进 属性 文件 中 的 一 个 基本 查询 为 :对 于 在 某 些 列 中 值 为 0 和 在 其 
它 列 中 全 为 1, 以 及 在 剩 下 的 列 中 值 为 任意 的 所 有 记录 的 一 个 请 求 。 利 用 “ * "来 代 
表 一 个 任意 的 值 ,我 们 可 以 把 任何 基本 查询 表示 为 诸 0,1 和 * 的 序列 。 例 如 ,考虑 
喜欢 茶 种 椰子 饼 于 ,但 却 厌 恶 巧克力 ,讨厌 茄 香 ,以 及 不 喜欢 提纯 香精 的 人 ;他 可 以 
描述 查询 如 下 

关 人 闪闪 关 关 OO 关 闪闪 兴 闪闪 兴 兴 闪闪 兴 兴 兴 关 闪光 闪闪 闪光 关 人 (0 (10) 
现在 表 1 指出 甜美 条 恰 是 这 种 东西 。 

在 考虑 为 基本 查询 而 组 织 文 件 的 一 般 问 题 之 前 , 先 来 考察 没有 指定 0 值 ,而 仅 
仅 指 定 1 值 和 x 值 这 种 重要 的 特殊 情况 。 如 果 我 们 假定 1 表示 存在 的 属性 ,而 0 表 
示 不 存在 的 属性 , 则 这 可 以 叫做 一 个 包含 查询 ,因为 它 问 及 包括 某 个 属性 集合 的 所 
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项 属性 的 一 个 文件 
蛋 蛋 面 姜 柠 柠 牛 糖 肉 坚 阁 萄 红 


一 
a 


表 1 具有 
> 黄 小 巧 桂 丁 椰 咖 玉 


发 
酵 
苏 
打 


白 黄 粉 守 汁 皮 奶 浆 萄 仁 片 干 糖 


米 
淀 下 
粉 


豆 克 
油 翘 力 皮 香 子 啡 


多 苘 发 
香 香醇 
果 籽 粉 


人 小 


奶油 乃 醇 
桔子 梅 脐 
酯 

机 
葡萄 肉 
色拉 油 
酸奶 
花生 黄油 


1 
1 
1 
1 
1 
I 
上 
1 
0 


1 


1 

0 

0 

0 

0 
0 0 0 
0 1 0 0 


0 0 提纯 可 1 
1 0 香 橡 , 肉 豆 藻 干 皮 ,胡椒 


0 0 


0 1 0 蜂蜜 


10000100 塞 钱 楼 桃 


1 00 0 


1 


1 
1 
1 
1 
1 
1 00 1 
0 1 0 1 
1 
1 0 0 0 
1 0 0 
0 10 1 
1 
1 
1 0 1 0 
] 0 0 
0 0 1 
1 0 


000010 0 
0100 1 
1 0 1 0 
1001 0 
100 1 0 
] 
1 
1 1 
1 
0 0 1 
1 
1 0 
000101 0 
1 
1 .00 1 


1 
1 
1 
1 


1 

1 
10000 0 10 1 0 
00 0 10 0 0 0 

0 1 

l 
000 000 10 1 


1 
1 
0 0 


0 .00 0 0 
0 0 0 0 0 
00000 0 
100000 0 
1 0 0 
100 0 00 10 0 
0 0 1 
1 0 1 1 
l] 0 0 0 1 
10 10 0 001 
100 .000 1 
1 
] 
00000000010 10 


10000000000 0 
1000000 10 0 
1000000 10 0 
100 0 0000 1001 
10 1 1000 10 0 

1 .0000000 100 1 0 
1000000 10 .00 
100000000 0 
100 0 00000 .01 
1000 00000 0 
1000000 0 0 00 10 .00 


1 0 0 
10000000 1 0 


1000 10 0 


1 
1 
1 
1 
1 
1 0 0 


1 
1 


1 
1 1 
1 
1 
1 1 
1 
1 1 
1 1 
1 
1 
1 
1 1 
1 
0 0 
1 1 
1 


] 


0 1 0 1 
00000 0 


0 0 0 0 


10 00 1 
0 10 000 0 0 0 1 


10 .000 1 
0.0 .00 0 1 1 
0 1 0 0 


10100000 0 
0010100001000 1 


0000 10 100000001 
1000011 


10 0 0 .01 
100 100 100 1 
0 .0000 
10 0 0 0 0001 
0000 110000000000 1110 000 0 0 0 0 
1 


1 
1 
1 


] 


0000000 0 
00000000 1 
000000 0 

100000000 1 1 
10 1000 00011 
1 000 000 0000 
0 .00 00 0 0 0 0 0 
00 0 00 0 0000 
0 0 0000000 0 1 
000000000 1 
00000000 1 
00100000 1 


1 100 1 
0 1 
1 
1 0 0 
1 
1 
1 
00 1 0 1 
1 
1 


1 
1 


] 
1 
1 
l 
l 
1 


0 
0 

0 0 0 1 
0 

0 0 0 1 
1 
1 


OO 
OO 
OO 
OO 
OO 
人 
OO 
SS 
OO 
OO 
一 
© 
OO 
OO 
OO 


00 0 110 0 
0 0 0 

0 0 0 1 
000010000 1 
0001 1 0 
0 

0 0 0 0 

0 0 0 0 
00001 0 0 
0 0 0 0 
1001000 1 
0 0 0 1 

0 0 0 1 

0 0 0 0 

0 0 0 0 

0 

0000 1 

0 0 0 0 


] 


饼 


奶油 乳 酷 小 甜 饼 
美味 梅 胶 条 人 饼 
形 卷 饼 


摩 拉 维 亚 香味 家 常 甜 饼 
燕麦 束 椰 子 条 人 饼 
旧式 家 常 糖 饼 

花生 黄油 风车 饼 
裙 状 燕尾 饼 


芬 斯 卡 ' 卡 客 (一 种 食品 名 ) 
佩 弗 纽 斯 


香 篆 燕麦 片 家 常 小 甜 饼 
党 粮 姜 汁 饼 


巧克力 注 片 小 甜 饼 


椰子 查 f 
斯 普 里 效 家 常 甜 饼 


查 仁 风味 薄 脆 饼 
苹果 次 香味 方 饼 
双料 巧 元 力 糖 饼 
甜美 条 饼 
带 馅 半 

胡桃 葡萄 干 甜 饼 
宝石 家 常 甜 饼 
环形 甜 薄饼 
苏格兰 燕麦 脆 饼 
瑞典 套图 饼 


波纹 套图 饼 
圆 腿 肉 面包 
蛋白 甜 饼 

星 状 脆 饼 

春 饼 





1L00010000000 1 0 0 
1]0001000001 1 1 0 0 
1]00000 0 00010 0 
100000 0 0 0 


1 1 

1 1 

1010000000 1 
0000000 0 


0 0 0 0 
0 0 0 0 


瑞士 桂皮 香 脆 片 饼 


太 妃 条 
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] 
1 0 1 0 


1 
1 


1 


] 


1 


0 0 1 0 


参考 . McCall’s Cook Book( New York:Random House,1963) 第 9 章 
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有 记录 。 例 如 ,在 表 1 的 食谱 中 , 既 要 求 发 酵 粉 又 要 求 发 酵 苏 打 的 ,是 浇 糖 姜 汁 饼 和 
旧式 家 常 糖 饼 。 

在 某 些 应 用 中 ,提供 包含 查询 这 种 特殊 功能 就 足够 了 。 例 如 ,在 许多 人 工 卡片 
文件 系统 的 情况 下 就 出 现 这 种 情形 ,诸如 “ 带 模 口 边 的 卡片 ”或 “特性 卡片 ”"。 一 个 对 
应 于 表 1 的 带 权 口 边 卡 片 系统 ,对 于 每 种 花色 将 有 一 张 卡片 ,而 且 对 于 每 一 成 分 部 
有 穿 出 的 孔 ( 见 图 46)。 为 了 处 理 一 个 包含 查询 ,卡片 文件 排 成 一 玖 而 穿 针 放 置 在 
每 个 列 中 对 应 于 所 需 属性 的 位 置 上 。 在 提起 穿 针 之 后 ,有 适当 属性 的 所 有 卡片 都 将 
落下 。 


OOOOOOON OOGOOO OOO\/OOOO0O OOOOOODO 
WW UU (AAA 全 Ct < -J 
OUWEESZEPSOSYT OES O03 UAH4a443Ia 
OFZzZOQOOFSs<32zuL&EEtFtiOO0VSUu3H22.54000d3D0 
忒 站 上 之 到 < OOKL<< >Jzt 必 上 之 二 = DDODZU 
O09 JS<OXSJUJOFOS,.L522 33 上 nHNnade 
OO QO -Ay VD DD 2 t 。 > 
Od 5 
立 < uO tk < 
3% v5 O uu 让 二 G Ce 
0 口 J + 他 9 
< o 
首 


SWISS-CINNAMON CRISPS 


OOOOOOOOOO0OO0 





OOOOOO0OO0OO0OO0OO0O0000000000000000000000000D0 
图 46 一 张 带 模 口 边 的 卡片 


一 个 特性 卡片 系统 以 类 似 的 方式 对 反 文 件 进行 工作 。 在 这 种 情况 下 ,每 个 属性 
有 一 张 卡片 ,对 于 具有 该 属性 的 每 个 记录 , 孔 就 穿 在 这 张 卡 片 的 指定 位 置 上 。 因 些 ， 
一 张 通常 的 80 列 卡片 可 用 来 告知 12 x 80 = 960 个 记录 中 , 哪 一 个 有 给 定 的 属性 。 
为 了 处 理 一 个 包含 查询 , 先 选 出 特定 属性 的 特性 卡片 并 把 它们 放 在 一 起 ;然后 ,光线 
穿 过 对 应 于 所 要 的 记录 的 所 有 位 置 。 这 个 操作 类 似 于 上 面 所 说 明 的 求 颠 倒 的 二 进 
位 串 之 交 来 处 理 布尔 查询 的 情况 。 


到 加 的 编码 ”我 们 对 于 这 些 人 工 卡片 系统 有 特殊 兴趣 的 原因 在 于 已 经 想 出 了 
一 些 精 巧 的 方案 来 节省 带 槽 口 边 的 卡片 上 的 空间 ;同样 的 原理 可 应 用 于 计算 机 文件 
的 表示 上 。 秋 加 的 编码 是 一 项 类 似 于 散 列 的 技术 ,而 且 在 发 现 散 列 之 前 和 若干 年 , 实 
' 际 上 它 就 被 发 明了 。 其 思想 是 把 诸 属 性 映射 到 一 个 n 位 字段 的 随机 & 位 代码 中 ,并 
且 对 于 记录 中 所 出 现 的 每 一 个 属性 的 编码 进行 玖 加。 对 某 个 属性 集合 进行 的 包含 
查询 可 以 被 转换 成 对 于 对 应 的 大 加 的 二 进位 码 的 包含 查询 。 额 外 的 少量 记录 可 能 
满足 这 个 查询 ,但 是 这 种 “ 假 情 报 ” 的 个 数 在 统计 上 是 可 以 控制 的 [参考 Calvin N. 
Mooers,Amer. Chem. Soc. Meeting 112 (1947 年 9 月 ),14E-15E;American Documen- 
tation 2 (1951),20~32]。 

作为 登 加 编码 的 一 个 例子 ,我 们 再 次 考虑 表 1, 但 是 不 考虑 像 发 酵 粉 、 松 酥油 
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脂 ` 蛋 面粉 这 样 的 基本 成 分 ,而 仅仅 考虑 调味 品 。 表 2 表明 ,如果 我 们 对 于 每 一 个 
调味 品 的 属性 都 指定 10 个 二 进位 字段 中 的 2 位 随机 代码 ,并 杰 加 这 些 编码 ,将 发 生 
什么 情况 。 例 如 ,巧克力 薄片 小 甜 饼 的 项 目 ,是 通过 全 加 巧克力 、 坚 果 仁 和 香精 的 代 
码 而 得 到 的 : 
0010001000 V 0000100100 V 0000001001 = 0010101101 

这 些 代码 的 全 加 ,也 产生 了 某 些 假 的 属性 ,在 这 种 情况 下 即 多 香 果 , 蜜 馈 楼 桃 ,葡萄 
肉 冻 ,花生 黄油 ,以 及 胡椒 ;这 些 将 引起 在 某 些 查询 中 出 现 假 情报 。( 而 且 它们 也 提 
出 了 建立 一 个 称 为 假 情 报 家 常 饼 的 新 品种 1) 

从 加 的 编码 实际 上 在 表 2 中 不 能 非常 有 效 地 工作 ,因为 该 表 是 有 着 大 量 属性 存 
在 的 一 个 小 例子 。 事 实 上 ,苹果 桨 香味 方 饼 对 于 每 个 查询 都 将 是 一 个 假 傅 报 , 因 为 
它 是 通过 芍 加 7 个 代码 得 到 的 ,而 结果 是 覆盖 了 全 部 十 个 位 置 ; 而 圣诞 小 酥 饼 苦 至 
更 坏 , 它 通过 释 加 12 个 代码 得 到 ! 另 一 方面 , 表 2 在 某 些 方面 却 工作 得 恢 人 地 好 ; 
例如 ,在 查询 “提纯 香精 "时 ,只 有 圣诞 小 酥 饼 的 记录 作为 假 情报 出 现 。 


如 果 我 们 有 ,比如 说 ,一 个 32 位 的 字段 以 及 6 = 4960 种 不 同属 性 的 组 合 ,其 


中 允许 每 个 记录 具有 多 达 六 个 属性 ,而 且 每 个 属性 通过 指定 32 个 二 进位 中 的 3 位 
来 编码 , 则 出 现 更 适合 的 全 加 编码 的 例子 。 在 这 种 情况 下 ,如 果 假 定 每 个 记录 有 六 
个 随机 选择 的 属性 , 则 在 一 个 包含 查询 中 假 情报 的 概率 


在 一 个 属性 上 是 .07948358 
在 两 个 属性 上 是 .00708659 
在 三 个 属性 上 是 .00067094 (11) 
在 四 个 属性 上 是 .00006786 
在 五 个 属性 上 是 .00000728 
在 六 个 属性 上 是 .00000082 


表 2 司 加 编码 的 一 个 例子 
个 别 调味 品 的 代码 
0100000001 1000000100 
0000100001 0000110000 
0000011000 0000000011 
0010010000 柠 模 着 1000100000 
1000010000 柠 橡皮 0011000000 


0000100010 肉 豆 苞 干 皮 0000010100 
0000101000 糖 浆 1001000000 
1000000001 肉 豆 苞 0000010010 
0010001000 坚果 仁 0000100100 
1000000010 村 子 0100000100 
0100000010 花生 黄油 0000000101 





“ 331 。 


第 6 章 查找 


葡萄 肉 冻 


杏仁 风味 薄 脆 饼 
苹果 首 香味 方 饼 


香 共 燕 麦片 家 稼 小 甜 饼 
巧克力 薄片 小 甜 饼 


椰子 杏仁 饼 
奶油 乳酪 小 甜 饼 
美味 梅 彩 条 人 饼 
双料 巧克力 糖 饼 
奶油 条 饼 

带 饮 半圆 形 卷 饼 
分 斯 卡 : 卡 客 饼 
党 糖 妆 害 饼 

明 桃 荀 萄 干 甜 饼 
宝石 家 常 甜 饼 
环形 甜 薄饼 
波纹 套 圈 饼 


0001100000 


0001010000 


0001000100 
0010000001 


0000100100 
1111111111 
1000111111 
0010101101 
0001111101 
0010001001 
0111110110 
0010101100 
0001111101 
1011101101 
0100100101 
1001110010 
1101010110 
0010101101 


1000001011 


胡 ” 椒 
梅 。 胶 
衔 萄 干 

提纯 香精 


营 加 的 代码 


辑 腿 内 面包 
重 日 研 馆 


摩 拉 维 亚 香 昧 家 常 甜 饼 


燕麦 束 椰 子 条 饼 
旧式 家 常 糖 饼 
花生 黄油 风车 饼 
襄 状 燕尾 饼 

佩 佛 纽 斯 
苏格兰 燕麦 脆 饼 
星 状 脆 饼 

春 饼 

斯 普 里 效 硕 饼 
瑞典 套图 饼 
瑞士 桂皮 香 脆 饼 
太 妃 条 饼 


0010000100 

0010000010 
010100000 

0000001001 


1011110111 
1000101100 
1001110011 
1000100100 
0000011011 
0010001101 
0000001001 
1111111111 
0000001001 
0000000000 
0011011000 
0000001001 
0000000000 
1000000010 
0010111101 
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于 是 ,如 果 有 M 个 不 真正 满足 两 属性 查询 的 记录 , 则 其 中 大 约 有 .007M 个 和 车 加 的 
代码 将 虚假 地 符合 两 个 指定 属性 的 所 有 代码 位 (这 些 概 率 在 习题 4 中 计算 )。 在 反 
文件 中 所 需 的 总 的 二 进位 仅仅 是 记录 数 的 32 倍 ,不 到 在 原来 的 文件 中 确定 属性 所 
需要 的 二 进位 数 的 一 半 。 

如 果 使 用 小 心地 选择 的 非 随 机 代码 , 则 如 同 W.H.Kautz 和 R.C.Singleton 所 证 
明 的 ,有 可 能 使 用 玖 加 代码 而 不 出 现任 何 假 情 报 , 见 正 EE Trans , IT-10 (1964) ,363 
一 377; 关 于 它们 的 构造 之 一 ,见习 题 16。 

Malcolm C. Harrison[CACM 14 (1971),777 一 779] 已 经 发 现 , 辣 加 的 编码 可 被 
用 来 加 速 文 本 查找 。 假 定 我 们 要 在 一 个 长 的 文本 中 找 出 一 个 特定 字符 串 的 所 有 出 
现 ,又 不 用 像 在 算法 6.3P 那样 构造 很 大 的 表 ; 而 且 假 定 , 该 文本 被 分 成 为 例如 每 个 
有 50 个 字符 的 行 c1c，…cso。Harrison 建议 通过 把 49 个 对 偶 cicy ,cyca，…，csocaso 
中 的 每 一 个 ,比方 说 , 散 列 成 为 0 一 127 之 间 的 一 个 数 ; 则 行 cjco… coo 的 “标记 ”是 
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128 个 二 进位 po01…0127 的 串 ,其 中 b;=1 当 和 日 仅 当 对 茶 个 j,h(cc;+1)=io 

如 果 我 们 现在 要 在 一 个 称 为 HAYSTACK 的 大 型 文件 中 查找 字 NEEDLE 的 所 有 出 
现 , 则 只 需 考 察 所 有 其 标记 在 h(NE),h(EE),h(ED),h(DL) 和 和 hh(LE) 的 位 置 上 包含 
二 进位 1 的 行 。 假 定 散 列 函 数 是 随机 的 ,一 个 随机 行 在 它 的 标记 中 包含 所 有 这 些 二 
进位 的 概率 仅仅 是 0.00341( 参 考 习 题 4); 因 此 ,五 个 反 表 的 二 进位 串 的 交 将 迅速 查 
出 包含 NEEDLE 的 所 有 行 ,连同 少量 的 假 情 报 在 一 起 。 

随机 性 的 假定 在 这 个 应 用 中 并 不 非常 有 道理 ,因为 典型 的 文件 有 如 此 多 的 兄 余 
性 ;在 英语 词汇 中 , 相 邻 字母 对 的 分 布 是 高 度 有 偏向 性 的 。 例 如 , 拼 弃 包含 有 一 个 空 
白字 符 的 所 有 对 偶 cjc; ;1 大 概 将 是 非常 有 帮助 的 ,因为 空白 通常 比 任何 其 它 符 号 更 
为 常见 得 多 。 

Burton H. Bloom 已 经 提出 了 生 加 编码 对 于 查找 问题 的 另 一 个 有 趣 的 应 用 
[CACM 13 (1970) ,422 一 426]; 他 的 方法 实际 上 适用 于 主键 码 的 检索 ,然而 在 本 下 
中 讨论 它 却 是 最 适当 的 。 想 像 一 个 大 型 数据 库 的 查找 ,而 且 在 这 个 大 型 数据 库 中 ， 
如 果 查 找 是 不 成 功 的 ,就 不 需要 进行 计算 。 例 如 ,我 们 有 可 能 需要 校 验 某 人 的 信贷 
定额 或 护照 号 码 等 等 ,如 果 此 人 的 记录 在 文件 中 没有 出 现 , 则 无 需 作 进一步 的 研究 。 
类 似 地 ,在 用 计算 机 排 字 时 ,我 们 可 以 有 一 个 简单 的 算法 , 它 正确 地 连接 大 多 数 的 
字 , 但 对 大 约 50 000 个 例外 的 字 它 是 失败 的 ;如 果 我 们 没有 发 现 例 外 文件 中 的 字 ， 
就 可 以 放心 地 使 用 这 个 简单 的 算法 。 

在 这 样 一 些 情况 下 ,有 可 能 在 内 存 中 保持 一 个 二 进位 表 , 使 得 在 文件 中 不 出 现 
的 大 多 数 键 码 可 以 被 认为 是 不 存在 的 ,而 无 需 进行 对 外 部 存储 的 任何 访问 。 做 法 
是 : 设 内 部 二 进位 表 是 5051… bx li, 其 中 M 相当 大 ,对 于 文件 中 的 每 个 键 码 K;, 计 
算 & 个 独立 的 散 列 函数 hi1(K,),…hi(K;), 并 且 置 相应 的 有 个 6 成 为 1( 这 上 个 值 
不 必 是 不 同 的 )。 于 是 当 且 仅 当 对 于 某 一 个 7 和 /1,h,(K;)=i 时 6b;=1。 现 在 来 确定 
一 个 查找 变 元 K 是 否 在 外 部 文件 中 ,首先 测试 对 于 1 夺 1 二 ,是 否 有 bi (K)=1; 如 


果 不 是 , 则 不 需要 访问 外 存 , 但 如 果 是 , 则 若 & 和 M 已 适当 地 选择 ,一 个 通常 的 查找 
大 概 将 找 出 KK。 当 在 文件 中 有 NN 个 记录 时 ,出 现 一 个 假 情报 的 机 会 近似 地 为 (1- 
e NM 六。 在 某 种 意义 下 ,Bloom 的 方法 把 整个 文件 处 理 成 为 一 个 记录 ,以 主键 码 
作为 存在 的 属性 ,而 且 在 一 个 庞大 的 M- 个 二 进位 的 字段 中 存放 对 加 编码 。 

Richard A.Gustafson 已 经 发 展 了 苇 加 编码 的 男 一 种 变形 | Univ. South Carolina， 
1969]。 假 设 我 们 有 N 个 记录 ,而 且 每 个 记录 具有 从 10 000 种 可 能 的 属性 的 集合 中 
选 出 的 六 个 属性 。 例 如 ,这 些 记 录 可 以 代表 技术 论文 ,而 属性 可 以 是 描述 这 篇 文章 
的 关键 词 。 设 h 是 一 个 散 列 函数 , 它 把 每 个 属性 映射 到 0 和 15 之 间 的 一 个 数 。 如 
果 一 个 记录 有 属性 aj ,a,,… ,a6, 则 Gustafson 建议 把 这 个 记录 映射 成 为 16 个 二 进 
位 的 数 5061…b1s, 其 中 6b;=1 当 且 仅 当 对 某 个 j ,h(a;)= i; 而 且 , 如 果 这 个 方法 仅 
导致 诸 5 中 的 个 等 于 1, 这 里 和 <6, 则 另外 的 6 一 个 1 由 某 种 随机 方法 提供 之 


(不 必 依 赖 于 记录 本 身 )。 在 | = 8008 种 十 六 个 二 进位 的 代码 中 恰 有 六 个 1 出 
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现 , 而且 碰 巧 大 约 有 N/8008 个 记录 将 被 映射 到 每 个 值 上 。 我 们 可 以 保持 诸 记 录 的 
8008 个 表 ,利用 一 个 适当 的 公式 直接 计算 对 应 于 06 …615 的 地 址 。 事 实 上 ,如果 
在 位 置 0 过 pj < p<…< zs 中 出 现 1 则 函数 


pi p2 ps 
(人 
将 把 每 个 串 566651… 61;s 转 换 成 数 0 和 8007 之 间 的 惟一 的 数 ,我 们 在 习题 1.2.6-56 和 


2.2.6-7 中 已 经 看 到 了 这 一 反 。 
现在 ,如果 要 找 出 具有 三 个 具体 属性 Al, A,, As 的 所 有 记录 , 则 我 们 计算 


(A,),h(As),h(As); 假 设 这 三 个 信和 是 不 同 的 ,我 们 仅仅 需要 考察 存储 在 [| - 


286 个 表 中 , 且 其 二 进 制 代码 6061…61s 在 这 三 个 位 置 中 包含 1 的 诸 记录 。 换 言 之 ， 
在 查找 中 仅仅 需要 考察 286/8008 之 3.5% 的 记录 。 

关于 合 加 编码 的 一 个 精彩 的 讲述 ,连同 它 对 于 电话 号 码 目 录 表 的 大 型 数据 库 的 
应 用 ,参见 C.S. Roberts,Proc IEEE 67 (1979) ,1624 一 1642。J.K. Mullin 和 D.J. 
Margoliash ,Software Practice 外 Exper. 20 (1990) ,625 一 630 讨论 了 它 在 检查 拼写 软 
件 中 的 应 用 。 


组 合 散 列 ” 葛 定 刚 刚 描述 的 Gustafson 方法 的 思想 是 找 出 某 种 方法 把 记录 映射 
到 内 存单 元 ,使 得 仅 有 较 少 的 单元 同一 个 具体 查询 相关 联 。 但 是 当 各 记录 只 有 较 少 
的 属性 时 ,他 的 方法 仅 可 应 用 于 包含 查询 。 田 一 类 映射 设计 来 处 理 像 (10) 那 样 由 诸 
0,1 和 x* 组 成 的 任意 基本 查询 , 它 是 由 Ronald. L. Rivest 于 1971 年 发 现 的 [ 见 
SICOMP 5 (1976),19~50]。 

首先 ,假定 我 们 要 编写 对 于 所 有 具有 六 个 字母 的 英文 字 的 一 部 交 又 字谜 字典 ， 
一 个 典型 的 查询 可 以 是 ,比如 说 , 查 问 所 有 具有 形式 N x x Dx 下 的 字 , 而 得 到 的 回 
答 是 |NEEDLE ,NIDDLE ,NODDLE ,NOODLE ,NUDDLE | 。 这 个 问题 可 巧妙 地 解决 如 下 :建立 
2 个 表 ,把 字 NEEDLE 翻 成 表 号 

h(N)hA(E)hR(E)hR(D)h(L)h(E) 

这 里 h 是 一 个 散 列 函数 , 它 把 每 个 字母 变 成 一 个 二 进位 值 。 把 6 个 二 进位 对 放 在 一 
起 , 即 得 一 12 位 的 表 地 址 ,因此 ,为 了 回答 查询 Nx *DxE, 仅 需 查看 4096 张 表 中 
的 64 张 表 。 

类 似 地 假设 我 们 有 1 000 000 个 记录 ,每 个 记录 含 10 个 辅助 键 码 ,其 中 每 个 辅 
助 键 码 有 相当 量 的 可 能 的 值 。 我 们 可 以 把 辅助 键 码 为 (Ki1 ,KK;，…,K 民 10) 的 请 记录 映 
射 到 20 位 的 数 

h(Ki)h(K,)h( Ko) (12) 
上 ,其 中 hh 是 把 每 个 输 助 键 码 映 成 2 位 值 的 散 列 函数 ,(12) 表 示 这 10 个 二 进位 对 偶 
的 并 列 。 这 个 方案 把 1 000 000 个 记录 映射 成 为 2”=1 048 576 个 可 能 的 值 ,而 且 
可 以 把 总 共 的 映射 当 作 具有 M = 22 的 一 个 散 列 函 数 ;拉链 可 用 来 解决 冲突 。 如 果 
我 们 要 检索 其 任何 五 个 辅助 键 码 具有 特定 值 的 所 有 记录 , 则 仅 需 要 考察 2 个 表 ,对 
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应 于 (12) 中 的 五 个 未 确定 的 二 进位 对 偶 ; 所 以 平均 仅仅 需要 考察 大 约 1000= V N 个 

记录 。( 一 个 类 似 的 方法 已 由 M. Arisawa,J Inf. Proc. Soc. Japan 12 (1971) ,163 一 

167 和 B.Dwyer( 未 发 表 ) 提 出 。Dwyer 提出 使 用 比 (6) 更 灵活 的 映像 ,就 是 
(hi(Ki) + ho KR) + + hio( Ki0)):mod M 

其 中 M 是 任何 合适 的 数 , 而 h; 可 能 是 wK; 形式 的 任意 散 列 函数 ,其 中 w; 是 “ 随 

机 ”的 。 

Rivest 已 经 进一步 发 展 了 这 个 思想 ,使 得 在 许多 情况 下 ,我 们 有 下 列 的 状况 。 
假定 有 N 守 2" 个 记录 ,每 个 有 m 个 辅助 键 码 。 每 个 记录 以 这 样 一 种 方式 映射 到 一 
个 位 的 散 列 地 址 上 , 即 任何 不 指定 个 键 码 的 值 的 查询 近似 地 对 应 于 Nm 个 散 
列 地 址 。 在 本 节 中 (Gustafson 的 方法 除外 ) ,我 们 已 经 讨论 过 的 所 有 其 它 的 方法 ,都 
需要 用 阶 为 N 的 步骤 进行 检索 ,尽管 比例 常数 很 小 ;对 于 足够 大 的 N,Rivest 的 方 
法 将 更 快 ,而 且 它 不 需要 反 文 件 。 

但 是 在 我 们 能 应 用 这 项 技术 之 前 ,要 定义 一 个 适当 的 映像 。 这 里 是 具有 小 参数 
的 一 个 例子 , 当 m=4 和 n=3 以 及 所 有 辅助 键 码 的 值 都 是 二 进 数 时 ;我 们 可 以 把 4 
位 记录 映射 成 为 八 个 地 址 如 下 : 


Ox00—>1 lx*x*11—5 
10x* 人 0 一 2 O01x1—6 (13) 
1] 10x*x—~>3 001x*x—7 


对 这 个 表 的 考察 揭示 ,对 应 于 查询 0* * * 的 所 有 记录 ,都 映射 到 单元 1,2,5,7 和 
8 ;而 且 类 似 地 ,任何 具有 三 个 * 的 基本 的 查询 恰恰 对 应 到 五 个 单元 ;具有 两 个 * 的 
基本 查询 每 个 对 应 于 三 个 单元 ;而 具有 一 个 * 的 基本 查询 对 应 于 一 个 或 两 个 单元 ， 
平均 为 (8X1+24x2)/32=1.75, 于 是 有 

查询 中 未 确定 的 二 进位 数 ”要 查找 的 地 址 个 数 


4 8 = 841 

3 S a 83/4 

2 3 > 8214 (14) 
1 1.75 > 8U14 

0 1 ~ 8 


当然 ,这 是 一 个 小 例子 ,通过 硬 算 更 容易 处 理 它 。 但 它 导 致 非 显然 的 应 用 ,因为 
当 m= 二 4r 和 n=3r 时 我 们 也 可 以 应 用 它 :通过 把 键 码 分 成 每 个 4 位 的 > 个 组 ,而且 
对 每 组 应 用 (13) ,把 4r 位 的 记录 映射 成 为 2 之 NN 个 地 址 。 得 到 的 映射 有 所 希望 的 
性 质 : 在 m 个 二 进位 由 对 天 个 不 加 指定 的 一 个 查 蜀 ,将 近似 她 对 应 到 NW" 个 单元 
(见习 题 6) 。 

1997 年 ,A.E.Brouwer[SICOMP 28 (1999) ,1970 一 1971] 通 过 类 似 于 (13) 的 一 


* 此 处 原著 有 误 ,原文 为 1,2,5$,7 和 8&, 但 地 址 中 并 无 8。 一 一 译 者 
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个 映射 ,发 现 把 8 个 二 进位 压缩 成 5 个 二 进位 的 一 个 有 吸引 力 的 方法 。 每 个 8 个 二 
进位 的 字 节 恰好 属于 下 列 32 个 类 之 一 。 


Ox000x0x* O01l1lx0xxl11 O00x11xx1 *11x*x 人 101 
lx000x0x 1TLx0xx11 10x*11x*x1 *1l11xx010 
Ox010x0x 0lxlxxl1l1 O00x0x01x x*10x*x0x*10 
lx010x0x 1lx*x1l1xxl1l1 lO0x0x*01* “10*1*01 0s) 
OxlOx 1x*x0 Ox1l1x000x x01l1lx*x01xl1 xO0x1001* 
lxl0Ox1x0 1x1x000x* x*l10x10x0 x*x0x0100* 
Oxllx 1x*x0 Ox0x11l1x0 x*x00x*x011x x0x011x1 
lxllxl1x*x0 1x0x11x*0 x*llx*xl100x* x*x0x110x0 


在 这 个 设计 中 的 * 号 是 以 下 列 方式 安排 的 , 即 在 每 行 中 恰 有 3 个 ,而 在 每 列 中 恰 有 
12 人 个。 习题 18 说 明 如 何 得 到 类 似 的 方案 。 它 将 把 有 比如 说 m= 4" 个 二 进位 的 记 
录 压 缩 成 有 n==3’ 个 二 进位 的 地 址 。 在 实用 中 ,将 使 用 大 小 为 5 的 桶 ,而 且 我 们 将 
取 N 守 2 ;为 了 讲述 的 简单 性 ,在 上 边 的 讨论 中 已 经 使 用 b=1 的 情况 。 

Rivest 还 提出 了 用 于 处 理 基 本 查询 的 另 一 个 简单 的 技术 。 假 设 我 们 有 ,比如 
说 ,每 个 有 30 个 二 进位 的 N32" 个 记录 ,这 里 我 们 希望 回答 像 (10) 那 样 任意 的 30 
个 二 进位 的 基本 查询 。 于 是 可 以 简单 地 把 这 30 个 二 进位 分 成 3 个 10 个 二 进位 的 
字段 ,并 保持 3 个 分 开 的 大 小 为 M =2" 的 散 列 表 。 每 个 记录 分 别 存储 3 次 , 即 在 对 
应 于 它 在 3 个 字段 中 的 二 进位 配置 的 各 表 列 中 。 在 适当 条 件 下 ,每 个 表 列 将 包含 大 
约 一 个 元 素 。 给 定 一 个 带 有 大 个 未 指定 二 进位 的 基本 查询 , 则 至 少 这 些 字 段 之 一 将 
有 Lk/3 或 更 少 的 二 进位 是 未 指定 的 ;因此 我 们 至 多 需要 考察 2L43Js: N430 个 表 列 ， 
以 找 出 对 于 这 一 查询 的 所 有 回答 。 或 者 ,我 们 可 以 在 已 选择 的 字段 中 使 用 用 于 处 理 
基本 查询 的 任何 其 它 技术 。 


广义 的 检索 结构 ”基于 类 似 于 6.3 节 的 检索 结构 这 样 一 个 数据 结构 ,Rivest 继 
续 提 出 另 一 个 方法 。 我 们 可 以 令 一 个 广义 的 二 分 检索 结构 的 每 个 内 节点 确定 它 表 
示 记 录 的 哪个 二 进位 。 例 如 在 表 1 的 数据 中 ,可 以 让 检索 结构 的 根 表 示 香 草 精 ;于 
是 左 子 检索 结构 将 对 应 于 不 含 香草 精 的 16 个 食物 品种 ,而 右 子 检索 结构 将 表示 使 
用 香草 精 的 15 个 食物 品种 。 这 16-15 的 划分 正好 把 文件 分 成 两 半 ; 我 们 以 类 似 的 
方式 处 理 每 个 子 文件 。 当 一 个 子 文件 变 成 适当 小 时 , 即 以 一 个 终 问 节点 表示 它 。 

为 处 理 一 个 基本 的 查询 ,我 们 从 检索 结构 的 根 开 始 。 当 查找 其 根 确定 一 个 属性 
的 一 个 广义 检索 结构 时 , 若 查询 有 0 或 1 的 值 ,我 们 就 而 分 别 地 查找 左 或 右 子 检索 
结构 ;如 有 果 该 查询 在 该 二 进位 置 有 * , 则 两 个 子 检索 结构 都 查找 。 

假设 属性 不 是 二 进 制 的 ,但 以 二 进 制 来 表示 它们 。 我 们 可 以 通过 首先 考察 属性 
1 的 头 一 个 二 进位 ,然后 考察 属性 2 的 头 一 个 二 进位 ,…… ,属性 mx 的 头 一 个 二 进 
位 ,然后 属性 1 的 第 二 个 二 进位 ,等 等 ,来 构造 一 个 检索 结构 。 通 过 与 m-d 树 的 类 
比 ,这 样 一 个 结构 叫做 “mx-d 检索 结构 ( 它 通过 比较 而 不 是 通过 对 位 的 检查 来 分 支 )。 
P. Flajolet 和 C. Puech 已 经 证 明 , 当 属性 中 有 kk/ 个 未 被 指定 时 ,为 了 回答 在 NN 个 
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节点 的 一 个 随机 mm-d 检索 结构 中 的 一 个 部 分 匹配 查询 的 平均 时 间 是 @(N*”)， 
LACM 33 (1986),371 一 407, $4.1];W. Schachinger 已 经 计算 了 方差 , 见 Random 
structures and Algorithms ,7 (1995),81~95。 

对 于 数字 查找 树 的 mx 维 变 形 和 6.3 节 的 Patricia 树 ,可 以 设计 类 似 的 算法 。 这 
些 结构 ,它们 稍微 趋向 于 比 mr.-d 检索 结构 更 好 地 平衡 ,已 经 由 了 .Kirschenhofer 和 
H. Prodinger 作 了 分 析 , 见 Ranadorm Structures and Algorithms $(1994) ,123 一 134。 


平衡 的 文件 方案 对 于 信息 检索 的 另 一 个 组 合 方法 ,是 以 平衡 的 不 完备 的 区 
组 设计 为 基础 的 ,这 是 进行 过 相当 大 量 研 究 的 课题 。 尽 管 这 一 课题 从 数学 的 观点 看 
来 是 非常 有 趣 的 ,但 不 幸 的 是 ,与 上 面 描述 的 其 它 方法 比较 ,还 不 能 证 明 它 是 非常 有 
用 的 。 这 里 将 给 出 简短 的 理论 介绍 ,以 便 指出 结果 的 特色 ,希望 某 些 读者 可 以 想 出 
一 个 好 方法 ,使 这 些 思想 变 成 为 实用 的 。 

Steiner 三 元 系统 是 把 v 个 对 象 排列 成 无 次 序 的 三 元 组 ,方式 是 每 一 对 对 象 恰 
在 一 个 三 元 组 中 出 现 。 例 如 , 当 w=7 时 ,实际 上 仪 有 一 个 Steiner 三 元 系统 , 即 


三 元 组 包括 的 数 对 

11 ,2 ,4| {1,2|,11,4|,12,4| 

12,3,5| [2,31 ,12,51, {3,5)| 

13,4,6| 13,4} ,13,6} ,14,6| 

{14,5,01 10,41,10,5| ,14,5| (16) 
15 ,6 ,1 11,51,{1,6|,15,6| 

16 ,0 ,2 | 10,21,10,6!,12,6) 

10 ,1,3 10,1| ,10,3|1 ,|1,31 


由 于 有 方 u(v 一 1) 对 对 象 , 且 每 个 三 元 组 有 三 个 对 ,总 共 必 然 有 万 v(v - 1) 个 三 元 
组 ;而 且 由 于 每 个 对 象 必须 同 vu- 工 个 其 它 的 对 象 配对 ,每 一 对 象 必 然 恰恰 出 现 于 
(vw 一 1) 个 三 元 组 中 。 这 些 条 件 意味 着 除非 万 v(w -1) 和 方 (v1) 都 是 整数 , 否 
则 Steiner 三 元 系统 就 不 能 存在 ,这 等 价 于 说 v 是 奇数 而 且 不 同 于 2 modulo 3, 即 
vmod6= 1 或 3 (17) 


有 反之 ,T.P. Kirkman 于 1847 年 证 明 ,Steiner 三 元 系统 对 所 有 使 得 (17) 成 立 的 v 宇 1 
存在 。 他 的 有 趣 的 构造 在 习题 10 中 给 出 。 

Steiner 的 三 元 组 系统 可 用 来 减少 组 合 的 反 文 件 案 引 的 元 余 性 。 例 如 ,再 次 考虑 
表 1 家 和 常 饼 食谱 的 文件 ,并 把 最 右边 的 一 列 转换 成 第 31 个 属性 , 当 需 要 任何 特殊 成 
分 时 为 1 否则 为 0。 假 定 我 们 要 回答 关于 属性 对 侦 的 所 有 包含 查询 ,例如 , “什么 花 
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色 既 使 用 椰子 又 使 用 葡萄 干 " 对 于 这 |( =465 种 可 能 的 查询 之 每 一 种 ,都 可 以 建 


立 一 个 反 表 。 但 结果 将 花费 大 量 的 空间 ,因为 (比如 说 ) 圣 省 小 酥 饼 将 在 ( 7) = 136 
个 表 中 出 现 ,而 且 具 有 所 有 31 种 属性 的 一 个 记录 将 在 每 个 表 中 出 现 ! 在 这 种 情况 
下 一 个 Steiner 三 元 组 系统 可 用 来 作 稍 许 改进 。 有 一 个 31 个 对 象 的 Steiner 三 元 组 
系统 , 且 有 155 个 三 元 组 ,而 且 每 个 对 象 对 偶 恰 恰 出 现 于 这 些 三 元 组 之 一 中 。 我 们 
可 以 为 每 个 三 元 组 ja ,b,c| 配 备 四 个 表 , 在 这 四 个 表 中 ,一 个 是 对 于 有 属性 c ,5 ,5 
(好 4 且 4 但 非 c) 的 所 有 记录 的 , 另 一 个 表 是 对 于 有 属性 a,5,c 的 ,第 三 个 是 对 于 
a ,b,c, 第 四 个 是 对 于 有 所 有 三 个 属性 < ,b,c 的 。 这 就 保证 任何 记录 都 不 会 被 包括 
在 155 个 以 上 的 反 表 中 ,而 且 每 当 一 个 记录 有 对 应 于 系统 的 某 个 三 元 组 的 三 个 属性 
时 , 它 就 节省 了 空间 。 

三 元 组 系统 是 区 组 设计 的 特殊 情况 ,其 中 的 区 组 有 三 个 或 更 多 的 对 象 。 例 如 ， 
有 一 个 方法 排列 31 个 对 象 成 为 六 元 组 ,使 得 每 对 对 象 恰恰 出 现 于 一 个 六 元 组 中 。 

10,4,16,21,22,24| ,11,5,17,22,23,25},…, {30,3,15,20,21,23} (18) 

(这 个 设计 通过 mod 31 加 法 由 第 一 个 区 组 形成 。 为 了 验证 它 有 所 述 的 性 质 , 注 
意 对 于 天) ,30 个 值 (a; - aj)mod 31 是 不 同 的 。 其 中 (a1,as,…,a6) = (0,4,16， 
21,22,24)。 为 了 求 出 包含 给 定 对 (x,y) 的 六 元 组 ,选择 i 和 j 使 得 a; 一 4 二 x 
一 y(modulo 31) ;现在 ,如果 有 &=(z-ai) mod 31, 则 我 们 有 (a,+ 有 ) mod31=>， 和 
(a +k) mod 31 = vy)。 

我 们 可 以 利用 上 述 设 计 存储 反 表 ,使 得 没有 任何 一 个 记录 出 现 31 次 以 上 。 对 
于 具有 a ,b,c ,qd,e,f 诸 属 性 中 两 个 或 两 个 以 上 属性 的 记录 的 各 种 可 能 性 ,每 个 六 
元 组 {a,b6,c,d,e, 了 i 同 57 个 表 相 关联 , 即 (a,b,c,ad,e,f),(a,b,c,d ,2,f),…， 
(a,b,c,d,e,f); 而 且 对 于 每 个 2- 属 性 包含 查询 的 答案 是 适当 的 六 元 组 的 16 个 适 
当 的 表 的 析 取 。 对 于 这 个 设计 ,圣诞 小 酥 饼 将 存 于 31 个 区 组 的 29 个 中 ,因为 如 果 
我 们 把 列 编号 成 0 一 30, 则 该 记录 在 除了 119,23,4,9,10,121 和 113,17,29,3,4,6| 
两 个 区 组 之 外 的 所 有 区 组 中 ,有 六 个 属性 中 的 两 个 。 

Marshall Hall, Jr 的 专著 Combinatorial Theory (Waltham, Mass, Blaisdell, 1967) 
详细 地 论述 了 区 组 设计 以 及 有 关 模 式 的 理论 。 尽 管 这 些 组合 配 置 是 非常 漂亮 的 ,但 
是 迄今 对 于 信息 检索 的 主要 应 用 ,还 只 是 减少 当 使 用 复合 的 反 表 时 引起 的 宛 余 性 ; 
而 且 David.K.ChowllInformation and Control 1$(1969) ,377 一 396] 已 经 发 现 , 甚 至 
不 使 用 组 合 设计 也 可 以 得 到 同样 的 减少 效果 。 


简 史 和 文献 目录 关于 辅助 键 码 检索 技术 的 头 一 篇 公开 的 论文 ,是 由 工 .R. 
Johnson 在 CACM 4(1961) ,218 一 222 上 发 表 的 。 多 重 表 系 统 是 由 Noah. S. Prywes， 
H.Jj.Gray, W.I.Landauer, D. Lefkowitz 和 S. Litwin 大 约 在 同一 时 期 独立 地 提出 
的 ;参见 IEEE Trans. on Communication and Electronics 82 (1963) ,488 一 492。 另 一 
篇 相当 早 的 并 对 后 来 的 工作 有 影响 的 著作 是 D.R.Davis 和 A.D. Lin 的 ,CACM 8 
(1965),243~246。 
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自 那 以 后 ,关于 这 一 课题 的 大 量 文献 迅速 增长 ,但 大 多 数 都 涉及 用 户 接口 和 程 
序 设计 语言 的 考虑 ,这 些 不 属于 本 书 的 范围 。 除 了 已经 引证 的 论文 外 ,下 列 已 发 表 
的 论文 是 当 作 者 于 1972 年 撰写 这 一 节 时 发 现 最 有 用 的 :Jack Minker 和 Jerome 
Sable,Ann. Rev. of Information Science and Technology 2(1967) ,123 一 160, Robert 
E. Bleier Proc. ACM Nat. Conf. 22 (1967),41~49;Jerome A. Feldman 和 Paul D. 
Rovner,CACM 12 (1969),439~ 449; Burton H. Bloom, Proc. ACM Nat. Conf. 24 
(1969 ), 83 ~ 95; H. S. Heaps 和 L. H. Thiel, Information Storage and Retrieval 6 
(1970) ,137 一 153; 林 测 森 和 林 辉 ,Proc. ACM Nat. Conf. 26 (1971) ,349 一 3$6。 关 于 
人 工 卡片 文件 系统 的 一 个 很 好 的 综述 , 见 C.P. Bourne 的 Methods of Information 
Handling (纽约 :Wiley,1963) ,第 $ 章 。 平衡 的 文件 系统 最 初 是 由 C. 人 T. Abraham,,S. 
P.Ghosh 以 及 D. K. Ray-Chaudhuri 于 1965 年 提出 的 ;参见 R. C. Bose 和 Gary.G. 
Koch 的 论文 ,SIAM.J. Appl. Math. 17 (1969) ,1203 一 1214。 


人 ww 已 经 讨论 三 关 于 多 属 隆 数据 的 大 多 数 经 典 的 算 东 ,它们 是 众 所 局 知 的 
在 实 契 中 很 重要 的 算法 。 但 在 本 书 的 下 一 版 本 中 ,打算 还 讨论 另外 一 些 课题 ,这 些 
谋 题 包 摧 : 

。 上 E. M McCreight 介绍 了 优先 查找 树 [SICOMP 14 (1985),257 一 276] ,它们 被 
专门 设计 来 表示 区 间 的 动态 变化 类 的 交 , 并 且 来 处 理 形 如 “ 求 满足 zo 委 z 委 zl 和 y 
委 y! 的 所 有 记录 的 范围 查询 。( 注 意 y 的 下 限 必 须 是 - ee ,但 zx 在 两 边 都 可 以 是 
有 限 的 。) 

。M.L.Fredman 已 经 证 明了 知 干 基本 的 下 限 ,它们 表明 ,无 论 是 用 什么 数据 结 
构 ,在 最 坏 情 况 下 , N 个 相互 混合 的 插入 .删除 和 & 维 范围 查询 的 一 个 系列 必须 花 
费 2(N(log N)“) 个 操作 。 参 见 JACM 28 (1981) ,696 一 70S$;SICOMP 10 (1981) ,1 
~10;]. Algorithms 1 (1981) ,77 一 87。 

有 关 在 文本 捉 中 模式 匹配 和 近似 模式 匹配 的 基本 算法 将 在 第 9 章 中 讨论 。 

指出 这 样 一 点 是 有 趣 的 , 即 人 脑 在 辅助 键 码 检索 方 同 要 比 计算 机 好 得 多 ;事实 
上 ,人 们 发 现 从 只 有 片断 的 信息 来 认 记 面孔 和 曲调 比较 容易 ,而 计算 机 则 几乎 全 然 
不 可 能 做 这 件 事 。 因 此 ,将 来 某 一 天 会 发 现 全 新 的 机 器 设计 方法 , 它 能 一 劳 永 逸 地 
解决 辅助 键 码 检索 的 问题 ,因而 使 本 节 完 全 过 时 ,这 并 不 是 不 可 能 的 。 


习 题 


1.[M27] 设 0<k 过 /2。 证 明 下 列 构造 产生 { ) 个 11,2,… ,1 的 排列 ,使 得 对 于 :< 或; 


之 n 一 上 ,i1,2,…,n1 的 每 个 1 元 子 集 至 少 作 为 一 个 排列 的 前 i 个 元 素 出 现 :考虑 平面 中 从 (0,0) 
到 (n ,>) 的 一 条 通路 ,这 里 /之 n -2k, 在 这 条 通路 中 第 i 步 是 从 (i 一 1,;) 到 (i,j+1) 或 者 到 (i， 


j ~- 1); 仅 当 j 宇 1 时 才 允 许 后 一 种 可 能 性 ,因此 这 条 通路 决 不 会 跑 到 z 轴 下 边 。 恰 有 (2 ) 个 这 样 
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的 通路 。 对 于 每 条 这 种 类 型 的 通路 ,利用 开始 时 为 空 的 三 个 表 列 构造 一 个 排列 如 下 :对 于 i=1， 
2,…,n ,如 果 这 条 通路 的 第 i 步 往 上 去 ,就 把 号 i 放 到 表 B 中 ;如 果 这 步 往 下 ,就 把 i 放 到 表 有 AA 
中 ,而 且 把 当前 表 B 中 最 大 的 元 素 放 到 表 C 中 。 得 到 的 排列 是 表 A ,然后 表 B, 然 后 表 C 的 最 后 
内 容 ,每 个 表 处 于 递增 的 次 序 。 

例如 , 当 n=4 和 =2 时 ,由 这 个 过 程 确 定 的 六 条 通路 和 排列 为 


信和 全 


[1234| 2|3 4|1 24|13 3|1 4|2 34||1 2 4|1 2|3 

(垂直 线 示 出 表 A 、B 和 C 之 间 的 分 界线 。 这 六 个 排列 对 应 于 (8) 中 的 复合 属性 )。 

提示 :通过 从 (0,0) 到 (n,n 一 2z) 的 一 条 通路 表示 每 上 个 元 素 的 子 集 S, 如果;i 冬 S, 它 的 第 ; 
个 步骤 从 (i 一 1,j) 进 行 到 (i ,j++1), 如 果 i€ S, 则 进行 到 (i,; -1)。 把 每 条 这 样 的 通路 转换 成 有 
上 述 特殊 形式 的 一 条 适当 通路 。 

2.[M25 ](Sakti.P.Ghosh)〉 试 求 用 于 访问 记录 的 一 个 表 rjr,… ri 的 最 小 长 度 1 ,使 得 对 三 个 
二 进 值 的 辅助 键 码 进行 的 任意 包含 查询 x x*1,x1x,1xx,x11,1*x1,11* ,111 的 所 有 回答 的 
集合 ,都 将 出 现 于 连续 的 单元 r,…r, 中 。 

3.[19] 在 表 2 中 ,什么 包含 查询 将 引起 (a) 旧 式 家 常 糖 饼 ,(b) 燕 麦 惠 椰 条 饼 在 假 情 报 中 出 
现 ? 


4.[M30] 假设 每 个 记录 有 r 个 不 同 的 属性 ,它们 是 从 ”位 字段 的 | ”| 个 有 位 二 进位 代码 中 
k 


随机 选择 的 , 且 查 询 包 括 9 个 不 同 的 但 除 此 以 外 是 随机 的 属性 , 试 求 (11) 中 概率 的 精确 公式 (如 
果 这 些 公 式 没 有 简化 ,也 不 要 吃惊 )。 
5.[40」 当 对 子 串 的 查找 使 用 Harrison 技术 时 ,实验 各 种 方法 来 避免 正文 的 元 余 性 。 


6.[M20] 指明 ;+ 个 二 进位 的 m 位 基本 查询 的 总 数 是 ;= (™ 2 如 果 像 在 (13) 中 那样 的 一 


个 组 合 散 列 函 数 把 这 些 查询 分 别 地 转化 成 为 1 ,1 … ,4 个 位 置 , 则 上 (2)= (+ ly+ +4)/s 
是 每 个 查询 的 平均 位 置 数 。[ 例 如 ,在 (13) 中 我 们 有 工 (3)=1.75。] 
现在 考虑 对 一 个 (ml + zz) 个 二 进位 字段 的 合成 散 列 函数 , 它 是 由 用 一 个 散 列 函数 映射 前 
mi 位 ,用 另 一 个 散 列 蚌 数 映射 剩 下 的 ms 位 形成 的 ,其 中 工 (&) 和 工 ;(&) 是 每 个 查询 对 应 的 平均 
位 置 数 。 试 借助 于 工 | 和 LL,, 求 表达 的 合成 函数 L (i) 的 一 个 公式 。 
7.LM24 ](R.L. Rivest) 如 同上 题 中 定义 的 那样 ,对 于 下 列 组 合 的 散 列 函数 , 求 函 数 工 (站 ): 
(a)m =3,n=2 (b)m = 4,n = 2 


00x—>0 O00x x—0 
lx0—>1 x*1x0—>1 
*11—2 x*111—2 
101 一 3 101 关 一 2 
010 一 3 *101 一 3 

100 x*—3 


8.[M32](R.L.Rivest) 考虑 类 似 于 (10) 中 的 所 有 2 人 (7 ) 个 基本 的 m 个 二 进位 查询 的 集合 
Q, ,其 中 恰 有 ; 个 指定 的 二 进位 。 给 定 mn 个 二 进位 的 记录 的 一 个 集合 S, 令 /.(S) 表 示 在 Q,， 
.540 . 


6.5 利用 辅助 键 码 的 查找 


中 查询 的 个 数 ,它们 的 回答 包含 S 的 一 个 成 员 ; 令 f(s,m) 是 对 于 0s 全 2”, 对 于 所 有 有 ;个 元 
素 的 所 有 这 样 的 集合 S 的 极 小 值 (S)。 约 定 f,(0,0)=0 和 f.(1,0)=6,.06 

a) 证 明 ,对 于 所 有 :之 1,m 之 1 以 及 对 于 0 三 2” ,f(s,m)= f(sj21,m-1)+ -1(| sf/21, 
m—1)+f.-1(Ls/24,m—1) 

b) 考 虑 从 2” 个 可 能 的 记录 到 2” 个 表 列 的 任何 组 合 散 列 函数 户 , 且 每 个 表 列 对 应 于 2” "个 
记录 。 如 果 Q, ,中 的 每 个 查询 都 是 同等 可 能 的 , 则 对 于 每 个 查询 需要 考察 的 表 列 的 平均 数 是 


1/2( 7” ) 乘 以 
>， (对 于 Q 考察 的 表 列 ) = >)( 同 S 有 关 的 Q,, 的 查询 ) 之 2"f.(2”-",m) 


QeQ ， 囊 列 S 

证 明 , 当 每 个 表 列 是 一 个 “ 子 立 方 体 ”时 ,在 这 个 下 限 可 达到 的 意义 下 ,h 是 最 优 的 ; 换 句 话说 ， 
当 每 个 表 列 对 应 于 满足 带 有 恰好 ”个 指定 的 二 进位 的 某 个 基本 查询 的 一 个 记录 的 情况 下 ,等 式 
成 立 。 

9.[M20j 证 明 当 w=3* 时 ,所 有 形 如 

(ai al-10010 (aa iler cr) (aa 12d dd, 4)3] ,1 之 kn 

的 三 元 组 的 集合 形成 一 个 Steiner 三 元 组 系统 ,其 中 诸 a, 诸 6b, 诸 c 和 诸 4d 取 遍 0,1 和 2 的 所 有 使 
得 b; + cj; + 4d 三 0(modulo 3) 的 组 合 , 其 中 1 二 jj 二 nn 一。 

10.[M32] (Thomas.P. Kirkman,Cambridge and Dublin Math. Journal 2(1847) ,191 一 204) 我 
们 说 阶 为 v 的 一 个 Kirkman 三 元 组 系统 是 把 v+ 1 个 对 象 |xo,x1，,… ,Xx,| 变 成 为 三 元 组 的 一 个 安 
排 , 使 得 对 于 i 关 ; ,每 个 对 偶 {x;,zx;| 恰 出 现 于 一 个 三 元 组 中 ,但 是 对 于 0 二 i< wv,w 个 对 侦 | xz;， 
X(i+t1) mod ov| 决 不 出 现 于 同一 个 三 元 组 中 。 例如 

{zo rT2, Ta}, {x1, rT3, Xa! 

是 阶 为 4 的 一 个 Kirkman 三 元 组 系统 。 

a) 证 明 仅 当 wv mod 6=0 或 4 时 一 个 Kirkman 三 元 组 系统 才能 存在 。 

b) 给 定 v 个 对 象 {x|,… ,x,} 上 的 一 个 Steiner 三 元 组 系统 S ,证 明 下 列 构造 产生 2v + 1 个 对 
象 上 的 另 一 个 Steiner 系统 S 以 及 阶 为 2v 一 2 的 一 个 Kirkman 三 元 组 系统 KK :S 的 三 元 组 是 S 
的 三 元 组 加 上 

i) iz;,y; ,Yel ,其 中 j+k 三 i(modulo v) 及 j<k,1<i,j,kv; 

ii) |z;,y;,z| ,其 中 2j 三 i(modulo v),1 二 i,j 志 wv。 

K 的 三 元 组 是 S 的 那些 三 元 组 减 去 含 y! 和 /或 y, 的 那些 三 元 组 。 

c) 给 定 |xo,;ZX1，… ,Xs| 上 的 一 个 Kirkman 三 元 组 系统 ,其 中 wv=24 ,证 明 下 列 构造 产生 2v+1 
个 对 象 的 一 个 Steiner 三 元 组 系统 S ,以 及 阶 为 2v -2 的 一 个 Kirkman 三 元 组 系统 K':;S’ 的 三 元 
组 是 K 的 三 元 组 加 上 

D {xiy Z(tl) mod oy, | 0Si<v; 

i) | zi, ys Yr1 ,I + k=2i+ 1(modulo v-1),l<j<k£-1<v-2,1l<i<v-2,; 

i) | x; y; ;Yo| ,2j2i+1(modulo v -1),1<j<v-1, 1 委 ; 委 -2; 

iv) {zo y2j 3 2 {rot y2 -1 .721 ,| Tos y; Yo- ;| ,对 于 l<j<u; 

v) lz 

KK 的 三 元 组 是 S$ 的 三 元 组 减 去 包含 w 和 /或 y, 1 的 那些 三 元 组 。 

d) 利 用 上 面 的 结果 证 明 阶 为 v 的 Kirkman 三 元 组 系统 对 于 形 如 6k 或 6k+4 的 所 有 wv 之 0 存 
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在 , 且 wv 个 对 象 的 Steiner 三 元 组 系统 对 于 形 如 6k+1 或 6k+3 的 所 有 v 宇 1 存在 。 

11.[M25 ] 正文 描述 了 同 包 含 查询 相 联 系 时 Steiner 三 元 组 系统 的 用 法 。 为 了 把 这 推广 到 所 
有 基本 的 查询 中 去 ,定义 下 列 概念 是 自然 的 : 阶 为 v 的 一 个 互补 三 元 组 系统 是 把 2vw 个 对 象 | x1， 
Zou 编 成 下 面 这 样 一 些 三 元 组 的 一 个 安排 , 即 每 对 对 象 恰 在 一 个 三 元 组 中 一 起 出 
现 ,但 互补 的 对 {zi,zi| 决 不 一 起 出 现 。 例 如 


{zi ,Za 3 ,| ZX! ,Ty ,TC | ,上 元 1 ， 2 元 3 9 | 元 ,To ,x3 


是 阶 为 3 的 一 个 互补 三 元 组 系统 。 

证 明 对 于 所 有 不 是 形 如 3k +2 的 wv 宇 0, 都 存在 阶 为 v 的 互补 三 元 组 系统 。 

12.[LM23 ] 继续 习题 11 ,构造 阶 为 7 的 一 个 互补 四 元 组 系统 。 

13.[M25] 构造 类 似 于 习题 9 的 三 元 组 系统 的 具有 v=4" 个 元 素 的 四 元 组 系统 。 

14.[28] 试 讨论 从 四 又 树 、 一 d 树 以 及 类 似 于 图 45 的 邮局 树 删 去 节点 的 问题 。 

15.[LHM30]」P. Elias 给 定 m 个 二 进位 记录 的 一 个 很 大 集合 ,假设 我 们 要 来 找 一 个 记录 ,在 大 
多 数 二 进位 一 致 的 意义 下 , 它 最 接近 于 一 个 给 定 的 查找 变 元 。 假 定 给 定 了 2” 个 元 素 的 一 个 mm 个 
二 进位 的 t- 误 差 校 正 码 ,而且 每 个 记录 已 经 被 “ 散 列 到 ”对 应 于 最 接近 的 码 字 的 2” 个 表 之 一 , 试 设 
计 用 于 有 效 地 解决 这 个 问题 的 一 个 算法 。 

16.125] (W.H.Kautz 和 R.C.Singleton) 证 明 阶 为 v 的 一 个 Steiner 三 元 组 系统 可 用 以 构造 
每 个 有 v 个 二 进位 的 v(w -1)16 个 代码 字 ,使 得 任 一 代码 字 不 被 包含 在 其 它 两 个 代码 字 的 要 加 
码 中 。 

17.[M30] 试 考虑 下 列 把 (2 + 1) 个 二 进位 的 键 码 < ,,…,ao,…,a, 减少 成 (n+1) 个 二 进 
位 的 桶 地 址 650 ,… ,5b 的 方法 

bo ao; 

如 果 bi_1=0 则 6 一 a 否则 如 一 ay, 对 于 1k 志 n。 

a) 试 描述 出 现在 桶 20…28, 中 的 诸 键 码 ; 

b) 在 有 指定 的 “上 个 二 进位 的 一 个 基本 查询 中 ,需要 考察 的 桶 的 最 大 个 数 是 多 少 ? 

了 P18.[M35] (相关 区 组 设计 ) 一 个 类 似 (13) 的 m 元 组 的 集合 , 且 在 2* 个 行 的 每 行 中 恰 有 
m 一 nn 个 x ,如果 每 个 列 包含 相同 个 数 的 x* ,而且 如 果 在 每 对 的 行 中 都 有 在 某 列 中 的 一 个 “不 匹配 ” 
(0 对 1) , 则 称 这 个 集合 为 ABD( m,n)。 于 是 每 个 m 个 二 进位 的 数 都 将 恰好 匹配 一 行 。 例 如 ， 
(13) 是 一 个 ABD(4,3)。 

a) 试 证 明 ,除非 mx 是 2*-!in 的 一 个 因子 而 且 %n 之 2m.(1 ~27"), 否 则 ,ABD(m,n) 是 不 可 能 
的 。 
b) 如 果 ABD 的 一 个 行 包含 有 奇数 个 1, 则 说 它 是 奇 校 验 的 。 试 证 明 ,对 于 一 个 ABD(m ,nn) 中 
的 m 一 nn 个 列 的 每 一 个 选择 ,在 这 些 列 中 具有 * 的 奇 校 验 的 行 的 个 数 等 于 偶 校 验 的 行 的 
个 数 ,特别 是 , 星 号 的 每 种 模式 必然 在 偶数 个 行 中 出 现 。 
c) 通 过 排列 和 /或 对 列 取 补 , 求 出 由 (13) 不 能 得 到 的 一 个 ABD(4,3)。 
d) 构 造 一 个 ABD(16,9)。 
e) 构 造 一 个 ABD(16 ,10) ,由 部 分 d) 的 ABD(16,9) 开 始 ,而 不 是 由 (15) 的 ABD(8,5) 开 始 。 
19.[M22]」 如同 在 (14) 中 已 经 分 析 了 (13) 那 样 , 试 分 析 (15) 的 ABD(8,5); 对 于 有 上 个 二 进位 
未 指定 的 一 个 普通 的 查找 来 说 ,必须 查找 32 个 位 置 中 的 多 少 个 位 置 ? 在 最 坏 情 况 下 ,必须 查找 多 
少 个 位 置 ? 
20.[M47] 当 n=5 或 n=6 时 , 求 所 有 ABD(m ,n)。 
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本 书 的 下 一 版 本 的 新 的 6.6 节 打 算 专 门 讨论 “持久 的 数据 结构 "。 持 久 的 数据 结构 能 够 以 这 
样 一 种 方式 来 表示 变动 的 信息 , 即 过 去 的 历史 可 以 有 效 地 重新 构造 出 来 。 换 名 话说, 我们 可 以 做 
许多 的 插入 和 删除 ,但 我 们 仍旧 能 进行 查找 ,就 好 像 在 一 个 给 定 的 时 间 之 后 未 曾 做 过 修改 似 的 。 
对 于 这 一 课题 有 关 的 参考 文献 包括 下 列 的 一 些 论文 : 
。 J.K. Mullin,Comp.J. 24 (1981) ,367~373; 
。M.H. Overmars ,Lecture Notes in Comp. Sci ,156 (1983), 第 9 章 ; 
。 E.W.Myers,ACM Symp. Principles of Prog. Lang. ,11 (1984),66~75; 
。 B.Chazelle,Information and Control ,63 (1985),77~99; 
。D. Dobkin 和 J.1. Munro J. Algorithms ,6 (1985),455S~465; 
。 R.Cole,J. Algorithms ,7 (1986) ,202 一 220 ; 
。 D. Field ,Information Processing Letters ,24 (1987),95~96; 
es。 C.W.Fraser 和 E.W.Myers,ACM Trans. Prog. Lang.and Systems 9 (1987) ,277~295; 
。] . R. Driscoll, N. Sarnak, D. D. Sleator 和 R. E. Tarjan,J. Comp. Syst. Sci. , 38 (1989),86~ 
124 ; 
。R.B. Dannenberg ,Software Practice & Experience ,20 (1990),109~132; 
。 J].R.Driscoll,D.D. K. Sleator 和 R.E.Tarjan,JACM 41 (1994),943~959。 
Instruction tables {programsj will have to be made up 
by mathematicians with computing experience 
and perhaps a certain puzzle soiving ability. 
There will probably be a great deal of work of this kind to be done, 
for every known process has got to be 
translated into instruction table form at some stage. ... 
This process of constructing instruction tables should be very {fascinating. 
There need be no real danger of it ever becoming a drudge, 
for any processes that are quite mechanical 


may be turned over to the machine itself. 

当今 表 [ 程序 ] 将 要 由 上 其 有 计算 经 验 以 及 或 许 还 有 茶 种 解决 智力 游戏 问题 
的 能 力 的 妆 学 家 来 用 制 。 

大 构 将 有 大 量 的 这 一 类 型 的 工作 需要 完成 ,因为 在 每 个 阶段 ,每 个 已 知 的 
过 程 雾 需 要 说 翻译 成 指令 表 的 形式 。 

榴 造 指令 表 的 这 一 过 程 将 非常 迷人 。 它 不 含有 变 成 单调 乏 靳 的 实际 危险 ， 
历 为 在 何 姥 些 十 分 机 城 化 的 过 程 前 可 以 交 给 机 海 杰 导 来 完成 。 

一 一 ALAN M.TURING(1945 ) 
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“1 have answered three questions, and that is enough” 

Said his father, “don ft give yourself airs! 

Do you think I can listen all day to such stuf{f? 

Be off,or Tl kick you down stairs!” 

“我 已 经 回 和 从 了 三 个 问题 ,而 这 就 够 了 ，” 他 的 父亲 说 ,“ 不 要 准 腔 作 数 1 
你 十 不 十 以 为 我 能 束 天 地 听 议 样 的 诬 话 ? 深 开 ， 
否则 我 将 一 脚 把 你 器 下 楼 去 1” 

-一 一 LEWIS CARROLL, A/ice ’s 4ovenlures Unoer Groung (1864) 


关于 习题 的 说 明 


1. 对 于 一 个 有 数学 修养 的 读者 来 说 是 一 个 普通 的 问题 。 

3. 见 W.]J]. LeVeque, Topics in Number Theory 2 (Reading, Mass. : Addison- Wesley, 
1956), 第 3 章 。P. Ribenboim, 13 Lectures on Fermat’s Last Theorem ( New York: 
Springer-Verlag, 1979), A. Wiles,Annals of Mathematics 141(1995),443~551。 
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1. 设 p(1),…,p(NN) 和 gq(1),…,g(NN) 是 满足 这 些 条 件 的 不 同 的 排列 , 目 设 i 
是 使 p(i) 关 g(i) 的 极 小 值 。 则 对 某 个 ;>i 有 p(i)=g(;) 和 对 于 某 个 >i, 有 
q(i) 三 p(k)。 由 于 开门 安民 二 Ki) < Ko )) = K ,i;) ,我 们 有 K ,i) 二 Kj) ; 
此 由 稳定 性 p(i)< p(k)=gq(i)<q(j)=p(i), 矛 盾 。 

2. 是 的 ,如 果 排 序 操作 都 是 稳定 的 话 。( 如 果 它 们 不 稳定 , 则 我 们 不 能 这 么 
说 。)Alice 和 Chris 肯定 有 相同 的 结果 ;而 有 日 Bill 也 是 ,因为 稳定 性 表明 ,在 他 的 结果 
中 当主 键 码 相等 时 ,次 键 码 是 按 非 减 次 序 排列 的 。 

形式 上 ,假定 Bill 对 次 键 码 进行 排序 之 后 ,得 到 结果 R00)*… Rn) = R1… Rw， 
然后 在 对 主键 码 进行 排序 之 后 得 到 Ri Row = Roy Ri 我 们 要 证 
明 : 对 于 1Si<N, (Ko oO) 生 (KoGrbyeocr0))。 如 果 Ks)) 
开 p(eG+D) 则 我 们 有 Kyeoc)) 过 KKpcocit1)) ;又 如 果 Ko = Kyeocr)); 则 Ksi) = 
Ko(i+y) ,因此 gq(i)< gq(i+1), 因 此 (6) 入 koG+1), 即 pcg0) Sk +1))o 

3. 我 们 总 能 把 具有 相等 键 码 的 记录 送 到 一 起 ,并 保持 它们 的 相对 次 序 , 在 进 一 
步 的 操作 中 把 这 些 记 录 组 当 作 一 个 单位 来 处 理 ;因此 ,我 们 可 以 假定 ,所 有 的 键 码 都 
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是 不 同 的 。 设 ce<5<c<a; 则 我 们 可 以 把 这 些 记 录 安 排 成 头 三 个 键 为 abc ,pca ,或 
cab。 现 在 如 果 N =1 个 不 同 的 键 码 可 以 以 三 种 方法 加 以 排序 , 则 六 个 也 能 ;因为 
如 果 人 < …<KN_ 11>KN, 则 对 于 某 个 地 总 有 开 ; -1 和 天 N< 开 ,或 者 Kn<Ki。 

4. 首先 比较 没有 大 小 写 区 别 的 字 ,然后 使 用 大 小 写 来 打破 伪 局 。 更 确切 地 说 ,以 
对 侦 (a ,a) 来 代替 每 个 字 a, 其 中 a 是 由 wa 通过 映射 A 一 a,… ,Zz 得 到 的 ;然后 按 字 
典 次 序 对 这 些 对 偶 进 行 排序 。 例 如 ,这 个 过 程 给 出 tex<Tex<TeX <TEX< text。 

字典 也 必须 处 理 加 重音 的 字母 ,前 缀 ,后 级 以 及 略 写 ;例如 

a<A<A<a-<a.<-a<A-<A.<aa<a.a. 
<aa<aa<AA<A.A.< AAA<:…<zz< Zz < ZZ < 2z2z < 2LL 

在 这 个 更 一 般 的 情况 下 ,我们 通过 映射 a 一 a, A 一 a 等 ,以 及 去 掉 破 折 号 及 句点 
等 得 到 a 。 

5. 设 0(0)=0 和 po((1a),)=1p( la|)a; 这 里 (1a), 是 一 个 正 整 数 的 通常 的 二 
进 表示 ,而 |a| 是 串 a 的 长 度 。 我们 有 o(1)=10,o(2)=1100,o(3)=1101,o(04) = 
1110000,…,o(1009) = 111101001111110001,*…, 0(65536) = 1°0%,., 0(20™°)= 
150630 ,等 。p (nn) 的 长 度 是 

oCn)| = ACn) + ACAGnA)) + ACAC(An))) + tlg ntl 

其 中 4(0)=0, 对 于 nn 宇 1,A4(n)=Llgnj。 而 且 lg*n 是 使 得 XAt”i(n)=0 的 最 小 整 
数 4 宇 0。[ 这 个 构造 是 由 V.1I. Levenshtein,Problemy Kibernetiki ,20(1968) ,173 一 
179 给 出 的 。 也 请 参见 由 D. A. Klarner 主编 The Mathematical Gardner (加 州 Bel- 
mont: Wadsworth International,1981) 310 一 325$,D.E.Knuth 的 论文 。] 

6. 游 出 是 可 能 的 ,而 且 它 能 导致 一 个 假 的 相等 指示 。 他 应 该 编写 ,LDA A;CMPA 
B 并 检查 比较 指示 器 (不 可 能 通过 减法 来 做 全 字 长 的 比较 ,这 实质 上 是 许多 计算 机 
上 的 一 个 问题 ;这 是 在 MIX 的 指令 系统 中 包括 CMPA,… ,CMPX 的 主要 原因 )。 

7 ， 


COMPARE STJ 9F 
1H LDX A,1 
CMPX B,1 
JNE 9F 
DEC1 1 
J1P 1B 
9H JMP x | 


8. 解法 1, 以 恒等式 min(a,6)= 子 (a+6b- la 一 5|) 为 基础 : 


SOL1 LDA A STR Al a=2al+as? 
SRAX 5 STX A2 |az| 委 1 
DIV =2= LDA B 


“ 345 ， 


SRAX 5 SLAX 5 
DIV =2= MUL AB2 
STR Bl b=2bi+b, STX AB3 (a, ~ b,) sign(a 一 0) 
STX  B2 152 委 1 LDA A2 
LDA Al ADD  B2 
SUB Bl 不 可 能 溢出 SUB AB3 
STA ABl al 一 bi SRAX 5 
LDA A2 DIV =2= 
SUB CB2 ADD Al 
STAR AB2 a,— b> ADD Bi 不 可 能 溢出 
SRAX 1 SUB AB1(1:5) 
ADD AB1 STR C | 
ENTX 1 
解法 2, 以 变 址 能 以 一 种 巧妙 的 方式 引起 交换 这 一 事实 为 基础 : 
SOL2 LDA A 
STA C 
STA TA 
LDA B 
STA TB 
现在 重复 下 列 代 码 & 次 ,这 里 2*>>10， 
LDA TA LDA TB INC1 0,2 
SRAX 5 SRAX 5 INC1 0,2 
DIV =2= DIV =2= INC1 0,2 
STX TEMP STX TEMP LD3 TMIN,!1 
LD1 TEMP LD2 TEMP LDA 0,3 
STA TA STR TB STA C 


(这 从 右 到 左 地 扫描 a 和 2 的 二 进 表示 ,并 保持 它们 的 符号 。) 最 后 ,程序 以 下 列 一 个 
表 结 束 


HLT 
CON C -1 -1 
CON B 0 ~—1 
CON B +1 -1 
CON A -1 0 

TMIN CON C 0 0 
CON B 1 0 
CON A -1 1 
CON A 0 1 
CON C 1 1 | 
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9. 由 容 斥 原理 (习题 1.3.3-26) 得 到 对 |” 7)(- Di > je” 这 是 
一 个 有 分 布 ,也 可 写成 为 r| 、j| 1(1 一 Nd 


10. 将 磁带 的 内 容 进行 排序 ,然后 进行 计数 ( 当 排 序 进行 时 , 某 些 排序 方法 可 用 
来 方便 地 筛 除 其 键 码 出 现 一 次 以 上 的 记录 )。 

11. 给 每 一 个 人 指定 一 个 标识 号 ,这 个 号 必须 在 所 有 涉及 他 的 表格 中 出 现 。 以 
这 个 标识 号 为 键 码 ,分 别 对 信息 表格 和 赋税 的 表格 排序 。 以 Ri ,Rn 表示 排 好 序 
的 赋税 表格 ,其 键 码 为 Ki<…<KN。( 对 于 相等 的 键 码 不 应 该 有 两 张 赋税 表格 。) 
增加 一 个 新 的 其 键 码 为 co 的 记录 ,这 是 第 (N+1) 个 记录 并 且 置 ;<1。 然 后 对 于 信 
息 文 件 中 的 每 个 记录 , 校 验 它 是 否 已 经 报告 如 下 : 设 K 表示 正在 处 理 的 信息 表 上 的 
键 码 。 

a) 如 果 开 >K;, 则 ;增加 1, 并 且 重 复 这 个 步骤 。 

b) 如 氏 < 开 ; 或 者 如 果 开 = K; 而 且 信息 不 反映 到 赋税 表格 尺 上 , 则 标 出 一 个 
错误 。 尝 试 来 做 这 全 部 工作 而 不 浪费 纳税 人 的 钱 。 

12. 一 个 方法 是 附加 键 码 (j,i) 到 条 目 a;,; 上 ,而 且 利 用 字典 编辑 顺序 来 排序 ， 
然后 删 去 键 码 。( 当 能 够 给 出 重新 编 序 的 一 个 简单 公式 时 ,一 个 类 似 的 思想 可 以 用 
来 得 到 对 于 信息 的 想 要 的 任何 重新 排序 。) 

在 这 个 问题 所 考虑 的 特殊 情况 下 , “平衡 的 两 路 合并 排序 ”方法 以 这 样 一 种 简单 
的 方式 来 处 理 键 码 , 即 不 必 明 显 地 在 磁带 上 写 出 任何 键 码 来 。 给 定 一 个 nxXn 宕 
阵 ,我 们 可 以 这 样 做 :首先 在 磁带 1 上 放置 奇数 编号 的 行 ,在 磁带 2 上 放置 偶数 编号 
的 行 ,等 等 ,得 到 : 

磁带 1 :211012 QQ31032 Q3nQ51052Q50 

磁带 2:a2la22…Q2n041042…Q4nQ61Q62 7G6n 
然后 反 绕 这 些 磁带 ,而 且 同 步 地 处 理 它 们 ,以 得 到 

磁带 3:ailazlal2a22……Qa1nQ2Q51Q61Q52062 7Q5nQ6n 

磁带 4:a3la41432042…Q3nQ4nQT1Q81272082 QTnQ8n 
反 绕 这 些 磁带 ,并 且 同 步 地 处 理 它 们 ,以 得 到 

磁 达 1:alilazla3la41Q12 242Q4nQ9 1 

磁 市 2:a5ia61271281052 082 0Q8n0131 
等 等 ,直到 [lgn 1]+1 遍 扫描 之 后 得 到 所 和 希望 的 转 置 。 

13. 一 个 方法 是 附加 随机 的 不 同 的 键 码 值 , 按 这 些 键 码 进行 排序 ,然后 抛弃 这 
些 键 码 。( 参 考 习 题 12; 在 3.4.2 小 节 中 讨论 了 为 得 到 一 个 随机 的 样品 的 一 个 类 似 
方法 。) 另 外 一 项 技术 需要 差不多 同样 多 的 工作 量 但 显然 不 太 强 求 随机 数 生成 程序 


* ” 容 斥 原理 又 译 为 包括 和 排除 原理 。 一 一 译注 
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的 精确 度 , 它 附 加 一 个 在 范围 0 三 K;<N -i 内 的 随机 整数 到 RR, 上 ,然后 利用 习题 
5.1.1-5 的 技术 重新 安排 。 

14. 通过 一 个 字符 转换 表 , 你 能 设计 一 个 按 字 典 顺 序 的 比较 程序 , 它 模 拟 在 其 
它 机 器 上 所 用 的 次 序 。 或 者 ,你 可 以 建立 人 工 的 键 码 , 它 不 同 于 实际 的 字符 但 是 给 
出 所 希望 的 次 序 。 后 一 种 方法 有 这 样 一 个 优点 : 它 仅仅 需要 做 一 次 。 但 是 它 花费 较 
多 的 空间 而 且 要 求 对 整个 键 码 的 转换 。 前 一 种 方法 通常 可 以 仅仅 通过 转换 键 码 字 
的 一 个 或 两 个 字母 ,就 确定 了 比较 的 结果 ;在 排序 的 后 边 诸 阶段 ,这 个 比较 将 仅仅 在 
几乎 相等 的 键 码 之 间 进 行 。 因 此 在 前 一 种 方法 中 ,在 转换 字母 之 前 校 验 字 母 的 相等 
性 也 许 是 有 优点 的 。 

15. 对 于 这 个 问题 , 仅 需 扫 视 这 个 文件 一 次 并 保持 50 个 左右 个 别 的 计数 。 但 
如 用 “城市 ”来 代替 “ 州 ” ,而且 如 果 城 市 的 总 数 十 分 大 , 则 对 于 城市 的 名 称 进行 排 序 
将 是 一 个 好 的 想法 。 

16. 像 在 习题 15 中 一 样 它 依 赖 于 问题 的 大 小 。 如 果 高 速 的 存储 器 能 放 得 下 交 
叉 引 用 的 全 部 记录 , 则 最 好 的 方法 大 概 是 使 用 一 个 符号 表 算 法 (第 六 章 ) ,而且 每 个 
标识 符 与 一 个 引用 表 的 表 头 相 联系 。 对 于 更 大 的 问题 ,建立 一 个 记录 文件 ,为 放置 
到 索引 中 去 的 每 个 交叉 引用 条 目 都 设置 一 个 记录 ,并 且 对 此 文件 进行 排序 。 

17. 每 张 卡 片上 设 一 个 “ 阴 形 键 码 ”, 若 以 通常 简单 的 方式 按 字典 顺序 对 键 码 进 
行 排序 ,就 能 定义 所 要 的 次 序 。 这 个 键 码 应 由 图 书馆 职员 提供 ,而 且 当 它 衣 次 进入 
这 个 系统 时 就 附加 到 卡片 数据 上 ,但 对 于 通常 用 户 来 说 它 是 看 不 见 的 。 则 一 个 可 能 
的 键 码 使 用 以 下 的 双 字 母 代 码 把 字 彼 此 分 开 : 

1 交叉 引用 的 结束 

2 姓 的 结束 

3 多 个 姓 的 连 字 号 

4 作者 名 的 结束 

5 地 名 的 结束 

6 标题 的 结束 

7 书 的 题目 的 结束 

8 词 之 间 的 空格 
对 于 给 定 的 例子 ,我 们 将 得 出 如 下 结果 (仅仅 给 出 头 25 个 字符 ): 


ACCADEMIA ww 8NAZIONALE ， 8DEI BROWN 2JOHN - 4MATHEMATICIA 
ACHTZEHNHUNDERT ZWOLF ， 8EIN BROWN ww 2JOHN 4OF 和 8BOSTON -0 
BIBLIOTHEQUE 8D ，8HISIOIRE BROWN 2JOHN 41715 0 
BIBLIOTHEQUE , 8DES , 8CURIOS BROWN 2JOHN 41715 .6 0 
BROWN 2J UU 8CROSBY WH4 0 BROWN 2JOHN 41761 ,0 

BROWN ,2JOHN 4 0 BROWN 2JOHN 41810 0 
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BROWN - 3WILLIAMS 2REGINALD 
BROWN D 8AMERICA 7 0 

BROWN D 8AND ~ 8DALLISONS 8NE 
BROWNJOHN jj 2ALAN 40 

DEN 2VLADIMIR 8EDUARDOVIC 
DEN ,7 0 

DEN ., 8LIEBEN 8LANGEN , 8TAG 由 
DIX ., 2MORGAN , 41827 0 

DIX ., 8HUIT -和 8CENT , 8DOUZE 和 8O 
DIX ., 8NEUVIEME ., 8SIECLE 8FR 
EIGHTEEN ,, 8FORTY 8SEVEN ww 8I 
EIGHTEEN 8TWELVE ,, 8OVERTUR 
I., 8AM.,,8A.,, 8MATHEMATICIAN ,7 


lu 8B 8M ., 8JOURNAL , 8OF ,, 8RES 
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LABOUR ,1 ,0 

MACCALLS ., 8COOKBOOK ,7 ,0 
MACCARTHY , 2JOHN 41927 ,0 
MACHINE ., 8INDEPENDENT , 8COM 
MACMAHON , 2PERCY ,, 8ALEXANDE 
MISTRESS 8DALLOWAY 7 0 
MISTRESS 8OF ,, 8MISTRESSES UL 
ROYAL ,, 8SOCIETY 8OF ,, 8LONDO 
SAINT 8PETERSBURGER , 8ZEIT 
SAINT 8SAENS 2CAMILLE ., 418 
SAINTE 和 8MARIE , 2GASTON 8P 
SEMINUMERICAL , 8ALGORITHMS 
UNCLE ,, 8TOMS .,, 8CABIN 7 ,0 


UNITED , 8STATES , 8BUREAU 由 80 


I 8HA 8EHAD ,7 0 VANDERMONDE 2ALEXANDER , 8T 


IAL8A8LOVE., 8STORY. ,7 0 VANVALKENBURG . 2MAC 8ELWYN 


INTERNATIONAL , 8BUSINESS ,8 VONNEUMANN ,2JOHN 41903 ,0 


KHUWARIZMI , 2MUHAMMAD ww 8IBN WHOLE 8ART , 8OF 8LEGERDEMA 


LABOR .7A 8MAGAZINE 8FOR 8 WHOS 8AFRAID ,, 8OF ., 8VIRGINI 


LABOR ., 8RESEARCH , 8ASSOCIAT WIJNGAARDEN .,, 2ADRIAAN 8VAN 


这 个 辅助 的 键 码 应 该 毛 有 卡片 数据 ,以 便 正 确 地 区 别 具 有 相同 辅助 键 码 (例如 Sir 
John = John) 的 不 相等 卡片 。 注 意 “Saint-Saténs” 是 一 个 连接 的 名 字 而 不 是 一 个 复合 
名 。al-Khuwarizmi 的 出 生年 份 应 当 以 比如 说 带 一 个 前 导 0 的 40779 给 出 。( 这 
个 方案 在 9999 年 之 前 都 将 有 效 ,而 在 该 年 之 后 世界 将 面临 巨大 的 软件 危机 。) 

对 于 这 个 例子 的 仔细 研究 揭示 如 何 处 理 在 人 机 交互 中 需要 的 其 它 非 寻常 类 型 
的 次 序 。 

18. 例如 ,对 于 xz 委 2 委 双 ,z 委 y 委 > 我 们 可 以 造 包 含 (us + v + mo) mod m 和 
(z* 一 Xx 一 y) mod m 的 值 的 两 个 文件 ,这 里 mm 是 计算 机 的 字 长 。 对 文件 进行 排序 
并 且 把 重复 的 挑 出 来 ,然后 对 重复 者 施 以 进一步 的 检验 。( 某 些 对 小 素数 求 模 的 同 
余 式 也 可 用 来 对 xs,z,mw,z,y,z 设置 进一步 的 限制 。) 

19. 一 般 地 说 ,有 如 下 方法 找 出 满足 z;+ zx; =c 的 所 有 数 对 1x;,z;| ,这 里 c 是 
给 定 的 :对 文件 进行 排序 ,使 得 ZI<C2zZ?<…<2zNos 置 ze1, < 入 ,然后 重复 下 列 操 
作 直 到 ;二 i: 

如 果 xz; + xz; 二 c, 则 输出 {zx;,z)) , 置 i<i+1,j<j 一 1; 
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如 果 xz;+ x;<<c, 则 置 i<i+1; 

如 果 xz, 十 Zi>c, 则 置 1T<A 71 一 |。 

最 后 ,如 果 7J=: 而 且 2z;=c, 则 输出 {x;,z;|。 这 个 过 程 就 像 习题 18 的 方法 那样 : 
我 们 实质 上 造 两 个 有 序 文件 ,一 个 包含 zi1,… ,zwN;, 男 一 个 包含 c 一 zn,…,c 一 x1 ,而 
且 校 验 重复 。 但 第 二 个 文件 在 这 种 情况 下 不 需要 明显 地 形成 。 当 c 为 奇数 时 , 男 一 
个 方法 是 对 一 个 诸如 (xz 奇人 z,z 偶 二 cc 一) 的 键 码 进行 排序 。 

当 给 定 t 和 两 个 排 好 序 的 文件 zl 二 … 二 zj ;yi 二 … 坏 y; 时 ,一 个 类 似 的 算法 可 
用 来 求 maxlz; + 2 i++ Xj 三 c1 ;或 者 比如 说 ,来 求 min| zi + yj |z; + y;>i|o 

20. 某 些 方案 是 :(a) 对 于 满足 1 委 ;<j 委 1000 的 499 500 个 对 偶 i,j 的 每 一 
个 , 置 yj 一 zi 只 zj ;yy1 人 (yi 一 1),y3 一 y2 八 (ys 一 1); 然 后 , 当 且 仅 当 ys=0 时 ， 
打印 (zz; ,zi)。 这 里 中 表示 “ 异 或 ", 和 表示”“ 按 位 与 "。(b) 由 每 个 原来 的 字 xz; 形成 
31 个 项 ,其 中 包括 x; 本 身 及 在 一 个 位 置 上 不 同 于 zx; 的 另外 30 个 字 ,这 样 得 到 一 个 
共有 31 000 个 项 的 文件 。 对 这 个 文件 进行 排序 ,而 且 考 察 重 复 性 。(c) 对 于 

i) 它 们 的 涉 10 个 二 进位 一 致 的 所 有 字 对 ; 

ii 它们 中 间 10 个 二 进位 (但 不 是 头 10 个 二 进位 ) 中 一 致 的 所 有 字 对 ; 

ii) 它 们 后 10 个 二 进位 (但 既 不 是 头 10 个 二 进位 也 不 是 中 间 10 个 二 进位 ) 一 致 

的 所 有 字 对 。 
作 类 做 于 (a) 的 测试 。 这 包含 三 个 数据 排序 ,并 且 每 次 使 用 一 个 确定 的 10 个 二 进位 
的 键 码 。 如 果 原 来 的 字 是 随机 分 布 的 , 则 在 三 种 情况 的 每 一 种 中 预期 的 对 偶数 目 至 
多 是 499500/27, 它 小 于 500。 

21. 首先 准备 好 包含 所 有 五 个 字母 的 英文 单词 的 一 个 文件 。( 别 忘 了 把 诸如 - 
ED、-ER、-ERS、-S 的 后 缀 附加 到 较 短 的 字 上 。) 现 在 取 每 个 五 字母 单词 w ,并 把 它 的 字 
母 排 为 递增 次 序 ,得 到 有 序 的 五 个 字母 的 序列 a 。 最 后 把 所 有 对 偶 (a ,a ) 进 行 排 
序 ,来 把 所 有 变异 单词 弄 到 一 起 。 

Kim.D.Gibson 于 1967 年 所 作 的 实验 表明 ,普遍 知道 的 五 个 字母 变异 字 的 第 二 
个 最 长 的 集合 为 LEAST,SLATE,STALE,STEAL,TAELS,TALES,TEALS。 但 如 果 他 能 够 使 
用 更 大 的 辞典 , 那 就 能 通过 加 上 下 列 各 词 而 使 这 个 集合 真正 成 为 第 一 :ALETS( 钢 肩 
甲 ) ,ASTEL( 一 个 裂片 ) ,ATLES( 意 愿 ) ,LAETS( 介 于 奴隶 和 自由 民 之 间 的 人 们 ) ,LaASET 
( 白 斋 ) ,LATES( 尼 罗 河 吻 鲈 ),LEATS( 水 沟 ),SALET( 中 世纪 的 头盔 ),SETAL( 与 刚毛 有 
关 的 ),SLEAT( 刺 激 、 激 励 ) ,STELA( 石 柱 ) 以 及 TESLA( 特 斯 拉 , 磁 通 量 密度 单位 )。 连 
同 对 于 “settle” (安置 ) 和 “teasel”( 川 续 断 属 植物 ) 的 旧 的 拼写 SATEL、TASEL 和 TASLE， 
我 们 得 到 22 个 互相 可 以 转换 的 字 , 其 中 没有 一 个 需要 以 大 写字 母 来 拼写 。 而 且 表 
凭 一 点 勇气 ,我 们 还 可 以 加 上 老 的 英文 字 toesl , 德 文 的 atles, 以 及 de Stasl 夫人 ! 当 
我 们 参考 完备 的 词典 时 ,也 能 把 集合 |LAPSE, LEAPS, PALES,PEALS, PLEAS, SALEP， 
SPEAIT 扩充 到 至 少 含 14 个 字 。| 参 见 H.E.Dudeney, 由 Martin Gardner 主编 ,300 
Best Word Puzzles (纽约 :Chas. Scribner”’s Sons,1968), 智 力 游戏 190 和 194; Ross 
Eckler, Making the Alphabet Dance (纽约 :St.Martin s Griffin,1997) ,图 46c|]。 
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三 个 或 以 上 五 个 字母 的 英文 变异 字 的 开 初 的 和 末尾 的 集合 是 |ALBAS、BALAS、 
BASAL| 以 及 |STRUT、STURT、TRUST| ,如 果 不 允 许 包 括 适 当 的 名 字 的 话 。 然 而 ,如 有 果 去 
掉 该 限制 , 则 适当 的 名 字 导 致 一 个 较 早 的 集合 {ALBAN、BALAN、BANAL、LABAN、 NABAL、 
NABLA} 。 在 普通 英语 中 较 长 的 变异 字 的 最 令 人 惊异 的 也 许 是 数学 的 集合 |ALERTING 
(警戒 ) .ALTERING( 修 改 ) .INTEGER( 整 数 )、RELATING( 关 联 )、TRIANGLE( 三 角形 )|。 

更 快 地 进行 的 方法 是 计算 f(a)= (h(al)+h(a2s)+… 二 h(as))mod m ,其 中 
a1,…,as 是 a 中 个 别 字 母 的 数值 代码 , 且 (h(1),h(2),…) 是 26 个 随机 地 选择 的 
常数 ;这 里 m 比如 说 是 2+2V1 ,如 果 有 N 个 单词 。 对 文件 (了 f(a),a) 用 算法 5.2.5R 
的 两 次 扫描 进行 排序 将 把 这 些 异 体 字 放 到 一 起 ;然后 当 f(a)= 了 (86) 时 ,我 们 必须 确 
保 对 于 a = 8 有 一 个 正确 的 变异 字 。f(a) 的 值 可 以 比 a 更 快 地 计算 ,而 且 对 于 文 
件 中 大 多 数 的 字 a 这 个 方法 避免 对 a 的 确定 。 

注意 ; 当 我 们 要 把 有 相等 的 多 字 键 码 (a|,…,a, ) 的 记录 的 所 有 集合 弄 到 一 起 
时 ,可 以 使 用 一 个 类 似 的 技术 。 假 设 , 除 了 把 有 相同 键 码 的 记录 和 弄 在 一 起 外 ,我们 并 
不 关心 文件 的 次 序 ; 有 时 ,对 一 个 字 的 键 码 (aiz" :+azz + 二 an )mod m 进 
行 排序 列 ,其 中 z 是 任意 固定 的 值 ,而 不 是 对 原来 多 字 的 键 码 进行 排序 ,还 要 更 快 
些 ， 

22. 求 图 形 的 同 构 不 变量 ( 即 ,在 同 构 的 有 向 图 上 取 相 等 值 的 函数 ) 并 对 这 些 不 
变量 进行 排序 ,来 把 “明显 地 不 同 构 ”的 图 形 彼 此 分 开 。 同 构 不 变量 的 例子 是 :(a) 以 
(a,,b;) 表 示 顶 点 v; ,这 里 oa; 是 它 的 输入 次 数 ,b; 是 它 的 输出 次 数 ; 然 后 把 对 偶 (ai， 
b,) 排 为 字典 编辑 顺序 。 得 到 的 文件 是 同 构 不 变量 。(b) 用 (a;,b;,aj,b;) 表 示 从 vi 
到 w 的 一 条 弧 ,并 且 把 这 四 元 组 排 成 字典 编辑 顺序 。(c) 把 有 向 图 分 开 成 为 连通 分 
量 (参考 算法 2.3.3E) ,确定 每 个 分 量 的 不 变量 ,并 且 以 某 种 方式 把 这 些 分 量 按 它 们 
的 不 变量 的 次 序 来 排序 。 也 见习 题 21 中 的 讨论 。 

在 按 它们 的 不 变量 对 有 向 图 进行 排序 之 后 ,一 般 仍然 有 必要 进行 第 二 次 测试 看 
是 否 具 有 相等 不 变量 的 有 向 图 确 是 同 构 的 。 这 些 不 变量 对 于 这 些 测 试 也 是 有 帮助 
的 。 在 自由 树 的 情况 下 ,有 可 能 找 出 “特征 的 "或 “规范 的 "不 变量 ,它们 完全 地 表征 
树 ,使 我 们 不 必 进 行 第 二 次 测试 [参见 J. Hopcroft 和 R.E. Tarjan,Complexity of 
Computer Computations (New York:Plenum,1972) ,140 一 142] 。 

23. 一 个 方法 是 形成 包含 所 有 三 个 人 的 集体 的 一 个 文件 ,然后 把 它 变换 为 含有 
所 有 的 四 个 人 的 集体 的 文件 ,等 等 ;如 果 没 有 很 大 的 集体 , 则 这 个 方法 将 是 十 分 令 人 
满意 的 。( 另 一 方面 ,如 果 有 个 人 的 集体 , 则 至 少 有 |[ ”| 个 个 人 的 集体 ,所 以 其 
至 当 nn 仅仅 是 25 人 左右 时 ,这 个 方法 仍 可 能 失败 。) 

以 (al ,al) 的 形式 给 出 列举 & 个 人 的 集体 的 一 个 文件 ,其 中 ai<< < 
a;_1;, 我 们 可 以 通过 (i) 对 于 使 5 之 cc, 其 分 别 的 形式 为 (al1,*…,a4-2,6),(al,*…， 
a _，,C) 的 每 对 一 1 个 人 的 集体 ,建立 包含 项 (5,c,al,…,ak-2) 的 一 个 新 文件 ; 
(ii) 按 它 的 头 两 个 分 量 对 这 个 文件 进行 排序 ;(ii) 在 同 原来 给 定 的 文件 中 的 一 对 相 

。 $51 ， 


习题 答案 


识 者 (b,c) 匹 配 的 新 文件 中 的 每 个 项 (b,c,ail,…,as-2), 输 出 个 人 的 集体 (a1， 
“a2 0,C)o 

24.( 由 Norman Hardy 给 出 的 解 , 大 约 在 1967 年 ) 作 输 入 文件 的 另 一 个 副本 ，; 
按照 头 一 个 分 量 对 一 个 副本 进行 排序 , 按 第 二 个 分 量 对 另 一 个 副本 进行 排序 。 顺 序 
地 扫描 这 些 文件 , 即 可 对 于 1 过 i 过 n -2 建立 含 所 有 对 偶 (z zx;+2) 的 一 个 新 文件 ， 
并 标识 (zN_iy,zN)o 对 偶 (N -1,zw_-1) 和 (N,zw) 应 写 到 另 一 个 文件 上 。 

归纳 地 继续 这 个 过 程 。 假 定 对 于 1 委 ; 委 六 -文件 下 以 随机 次 序 包含 所 有 对 
偶 (zi zi, 而且 对 于 N 一 1:<i 志 NN 文件 G 以 第 二 个 分 量 的 顺序 ,包含 所 有 对 偶 
(i zi)。 设 瑟 是 文件 下 的 一 个 副本 ,而 且 通过 头 一 个 分 量 对 矿 排序 ,通过 第 二 分 
量 对 下 排序。 现在 扫描 下, G 和 瓦 ,同时 建立 两 个 新 文件 已 和 G“ 如 下 。 如 果 文 件 
F,G,H 的 当前 记录 分 别 为 (zx,z ),(y,y ),(z,z ) 则 : 

i) 如 果 zx = z, 则 输出 (z,z ) 到 下, 且 推 进 文件 下 和 五 。 

i 如果 x = yy, 则 输出 (y 一 t,x) 到 G', 且 推进 文件 下 和 GG。 

iii) 如果 zx > yy , 则 推进 文件 G。 

iv) 如 果 x > z, 则 推进 文件 五 。 

当 文件 下 被 取 尽 时 ,通过 第 二 个 分 量 对 G 排序 而 且 把 G 同 它 合并 ;然后 以 2 代 营 
1 ,以 下 代替 下 ,以 G 代替 G。 

于 是 1 取 值 2,4,8,…; 对 于 固定 的 t 我 们 扫描 数据 O(log N) 次 来 对 它 进行 排 
序 ;因此 扫描 的 总 数 是 O((logN)*)。 最 后 t 宇 N, 所 以 下 是 空 的 ;然后 我 们 只 需 按 
G 的 头 一 个 分 量 对 G 进行 排序 即 可 。 

25.( 由 D. Shanks 给 出 的 一 个 思想 ) 对 于 0 委 ”< 7 ,编制 两 个 文件 ,一 个 包含 
ammod p, 而 另 一 个 包含 pe "mod p。 对 这 些 文件 进行 排序 而 且 寻 找 一 个 共同 条 
目 。 

注意 :[ 这 使 最 坏 情况 运行 时 间 从 6(p) 减 少 到 8(V plog p)。 进 一 步 的 重大 改 
进 通 常 是 可 能 的 。 例 如 ,通过 测试 是 否 52 02mod p=1 或 (p -1), 在 log p 步 之 
内 ,我 们 能 容易 地 确定 ”是 偶数 还 是 奇数 。 一 般 地 说 ,如 果 f 是 p 一 1 的 任何 因 了 于 ， 
而 4 是 gcd( f,n) 的 任何 因子 ,通过 查找 长 度 为 Ja 的 一 个 表 中 6'?- /的 值 ,我 们 
可 类 似 地 确定 (n/d) mod f。 如 果 p 一 1 有 质 因 子 gi 二 gq 三 … 二 gq, 而 且 如 采 gq, 很 
小 ,因此 ,在 对 于 基数 g1,… ,gq, 的 混合 进 制 表 示 中 ,通过 从 右 到 左 地 找 出 数字 ,我们 
能 快速 地 计算 n。( 这 个 思想 归功 于 R.L.Silver1964; 也 请 参见 S.C. Pohlig 和 M 
Hellman ,IEEE Transactions IT-24(1978) ,106 一 110。) 

John M. Pollard 基于 随机 映射 理论 ,发 现 了 以 大 约 O(Y zp ) 次 运算 mod p ,同时 
要 求 很 少 内 存 的 计算 离散 的 log 的 漂亮 方法 。 请 见 Math. Comp. ,32(1978) ,918 一 
924 ,其 中 他 也 建议 了 基于 数 n; = rimod p 的 另 一 个 方法 ,这 些 数 有 很 小 的 质 因子 。 

习题 4.5.4-46 讨论 了 一 些 渐 近 地 更 快 的 方法 。 
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5.1.1 小 性 


1.205223000;,27354186。 
2.61=(m 一 工 ) mod nj;b;r1= (0;+ m 一 1]1) mod (7 一 7)。 
3.aj; 二 awn+1-;( 有 反 序 的 排列 ”)。 这 一 思想 为 O. Terquem[Journ. de Math. 3 


(1838) ,559 一 560] 用 来 证 明 ,在 一 个 随机 排列 中 反 序 的 平均 数 是 地 { ” | 。 


4.C1. 置 zo 一 0。( 对 于 1<j 过 nn, 有 可 能 让 zx) 在 以 下 的 诸 步 骤 中 同 b, 共享 存 
储 ) 
C2. 对 于 =n,n 一 1,…,1( 以 这 一 次 序 ) 进 行 下 列 工作 : 置 ;< 一 0; 然 后 置 ;一 
zi 恰 b, 次 ;然后 置 ZkA x; Hzr;ko 
C3. 置 7<0。 
C4. 对 于 =1,2,…,n( 以 这 一 次 序 ) 进 行 下 列 工作 ; 置 a 一 xz, 然后 置 j 一 
zo | 
为 方 省 存储 空间 ,请 见习 题 5.2-12。 

5. 命 a 是 非 负 整数 的 有 序 对 的 一 个 串 [mx ,nij…[m ,ns]; |a|=&, 表 示 a 
的 长 度 。 命 e 表示 空 串 (长 度 为 0)。 考 虑 在 这 种 有 序 对 上 递归 地 定义 的 二 元 操作 。 
如 下 : 

E€°0o= a°*ée= 0a; 
([m,nja): ([m ,n’ ]B8) = 

[m,nj(ae[m — m,n 18)), 如 果 m 达 mm 

[m,n J(([m—-m -1,n]a). 8), 如 果 m>> nm 
由 此 得 出 为 求 .a。B 的 值 所 需要 的 计算 时 间 与 1a.eB8|= |a|+|8| 成 比例 。 其 次 ,我 
们 可 以 证 明 * 是 可 以 结合 的 ,而 且 [2i,1]* [6 ,2]。… [5 ,2]=[0,ai][0,a]…[0， 
au j]。 左 边 的 表达 式 可 以 在 [lg n 1 次 扫描 中 计算 出 来 ,每 次 扫描 都 结合 一 些 串 对 ,总 
共 为 O(n log nn ) 个 步 又 。 

例子 : 从 (2) 开 始 ,我 们 来 求 [2,1]*°[3,2]。16,3]°[4,4]°[0,5]°[2,6]:[2,7]。 
[1,8j*L0,9] 的 值 。 头 一 次 扫描 把 它 归 结 为 [2,1][1,2]-.[4,4][1,3]*[0,$][2,6]。 
[1,8j[0,7]j*[0,9]。 第 二 次 扫描 把 它 归 结 为 [2,1][1,2][1,4][1,3]*[0,5][1,8] 
[0,6j[0,7]*10,9]。 第 三 次 扫描 得 到 [0,5][1,1][0,8][0,2][0,6][0,4][0,7][0， 
3]。°10,9]。 第 四 次 打 描 得 出 (1)。 

动机 :一 个 诸如 [4,4]j[1,3] 的 串 表 示 “ww 4D3Uoco”, 这 里 “, ”表示 一 
个 空格 ;操作 a。eB 把 8 的 空格 和 非 空格 插入 到 wa 的 空格 中 。 注 意 , 和 习题 2 一 起 ,我 
们 得 到 Joseph 问题 的 一 个 算法 。 它 是 O(n log n), 而 不 是 O(mn), 同 时 部 分 地 回 
答 了 在 习题 1.3.2-22 中 提出 的 一 个 问题 。 

以 一 种 直截了当 的 方式 使 用 平衡 树 , 即 得 到 对 于 这 个 问题 的 另 一 个 O(n log 7 ) 
的 解 ,这 种 解法 使 用 一 个 随机 存 取 的 存储 器 。 
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6. 由 5=0=…=0=0 开 始 。 对 于 k=|[lgnj,Llg nj 一 1,…,0, 进 行 如 下 : 
对 于 0s 全 nn/2*"' 置 x, 一 0, 然 后 对 于 j=1,2,…,n 进行 如 下 : 置 r<| a/2*」mod 2， 
s< Lai/2 ”| (这些 实质 上 是 位 的 抽取 ); 如 果 + =0, 则 置 ba 一 ba + 文 ;, 如 果 =1 
则 置 x 一 zx.+1。 

为 一 个 答案 出 现 于 习题 5.2.4-21 当中 。 

7.B<j 且 Cn 一 j, 因 为 aj 左边 有 少 于 ;一 1 个 元 素 , 而 右边 及 n 一 j 个 元 
素 。 为 了 从 B1B,…B, 重新 构造 aja,…a, ,由 元 素 1 开始 ;然后 对 于 有 =2,…,n ,对 
每 个 之 & 一 Bi 的 元 素 加 1 并 附加 有 一 Bi 于 右边 (参见 1.2.5 小 节 的 方法 2)。 对 诸 
C 的 一 个 类 似 的 过 程 有 效 。 或 者 我 们 可 以 使 用 下 列 习题 的 结果 。 [ Rodrigues ,J. de. 
Math. 4 (1839) ,236 一 240 讨论 了 < 反 序 表 。C 反 序 表 在 1800 年 由 Rothe 使 用 , 参 
见 Netto 的 Lehrbuch der Combinatorik (1901) 85j。 


8.6 =Cc =B,B =c,C =b, 因 为 a1…a, 的 每 对 反 序 (a;,a) 对 应 于 a1*…a’ 
的 反 序 (7 ,i)。 某 些 进一步 的 关系 :(a)c;=j 一 1 当 且 仪 当 (对 于 所 有 的 i<j; 有 6;> 
b;);(b)b; 二 一 7 当 且 仅 当 (对 于 所 有 的 :>7 有 ci>c;);(c)b;=0 当 且 仅 当 (对 于 所 有 
的 i1>j 有 ci-i<cj);(d)c=0 当 且 仅 当 (对 于 所 有 的 i<j 有 b;+i<b+j;(e)b， 
bi+1 当 且 仅 当 a;<ai41, 当 且 仪 当 6 之 cj41;(f)a;=j+ CGC -B;a;=j+b;- co 

9.0=C=0 等 价 于 a= a 。 

10. V10。( 对 截 八 面体 建立 坐标 的 一 种 方式 是 命 下 列 向 量 (1,0,0),(0,1,0)， 
了 (1,1W2), 地 (1 一 1,W3), 记 (一 1,1,W2), 方 (一 1 -1,W2) 分 别 代表 对 偶 21,43， 


41,31,42,32 的 相 邻 的 交换 。 这 些 向 量 的 和 给 出 (1,1,2V2) 作 为 顶点 4321 与 1234 
之 间 的 差 。) 
一 个 更 对 称 的 解 是 通过 
>|e, 一 e,| (u,v) 是 x 的 一 个 反 序 | 

来 表示 四 维 中 的 顶点 x, 这 里 e1=(1,0,0,0),es= (0,1,0,0),es= (0,0,1,0),es= 
(0,0,0,1)。 于 是 1234e(0,0,0,0);1 243=(0,0, 一 1,1);…;432102(-3, 
一 1,1,3)。 所 有 的 点 都 位 于 三 维 子 空间 |(w,z,y,z)|wt+zxz+y+x=0|l 上 ;两 个 
相 邻 顶点 之 间 的 距离 为 /2。 等 价 地 (参见 习题 8(f) ) 我 们 可 以 通过 向 量 (4a1 ,a5,a5， 
a 4) 表示 x= aia2a3a4, 这 里 a1a2a3a4 是 逆 排 列 。( 这 个 以 排列 作为 坐标 的 截 八 
面体 的 4 维 表 示 , 以 及 它 的 n 维 推广 。C. Howard Hinton 在 The Fourth Dimension 
(伦敦 ,1904) 第 10 章 中 讨论 过 。 许 多 年 以 后 Guilband 和 Rosenstiehl 发 现 了 一 些 进 
一 步 的 性 质 ,他们 把 图 1 叫做 “排列 面体 ”; 请 见习 题 12 。) 

把 截 八 面体 的 一 些 复制 以 所 谓 “ 最 简单 的 "方式 充填 三 维 空间 [ 见 H. Steinhaus， 
Mathematical Snapshots (牛津 ,1960) ,200 一 203;C.S.Smith ,Scientific American 190 
(1954 年 1 月),58 一 64]。Pappus 的 Collection (大 约 公 元 300 年 ) 提 到 截 八 面体 作 
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为 阿 基 米 德 研究 的 13 个 特殊 的 固体 图 形 之 一 。 阿 基 米 德 固 体 的 图 示 即 非 棱 形 多 面 
体 有 把 任何 顶点 转换 成 任何 其 它 顶 点 的 对 称 性 ,而 且 它 的 面 是 正规 多 边 形 但 不 完全 
相等 ,可 在 比方 说 ,由 H.S.M.Coxeter 修改 了 的 W.W.Rouse Ball 的 书 Mathematical 
Recreations and Essays (Macmillan ,1939) ,第 9 章 ;H.Martyn Cundy 和 A.P.Rollett， 
Mathematical Models (牛津 ,1952),94 一 109 中 找到 。 

11.(a) 显 然 。(b) 由 诸 顶 点 (1,2,…,n) 及 如 果 zx>>y 且 (zx,y)EF 或 <y 且 
(y,X)EE 时 由 x 一 y 形成 的 弧 , 构 成 一 个 有 向 图 。 如 果 没 有 有 了 向 回路 , 则 这 个 有 辣 
图 可 以 拓扑 地 进行 排序 ,而 且 得 到 的 线性 次 序 是 所 希望 的 排列 。 如 果 有 一 个 有 向 的 
回路 , 则 它 的 长 度 至 少 为 3, 因为 没有 长 度 为 1 或 2 的 ,而 且 由 于 一 个 更 长 的 回路 ai 
一 0 一 43 一 04 一 一 01 可 以 被 缩短 (或 者 cl 一 a3 或 者 a3 一 a1)。 但 是 长 度 为 3 的 
一 条 有 向 回路 包含 已 或 巨 的 两 条 弧 ,这 证 明了 顾 或 巨 毕竟 不 是 传递 的 。 

12.1G.T.Guilbaud 和 P. Rosenstiehl,Math et Sciences Humaines 4 (1963) ,9 一 
33]。 假 设 (a,5)EEk,(b,c)EE,(a,c) 臣 。 则 对 于 某 个 & 宇 1, 我 们 有 a = zxo> 
ZT1>…>zh=c, 这 里 (zi,zit1)E E(x1)UE(x,), 其 中 0<i<k。 考 虑 这 种 类 型 
的 一 个 反例 ,其 中 为 极 小 。 由 于 (a,5)&E(xi) 和 (b,c) 外 E(x), 我 们 有 (a,c) 
各 下 (xi) ,而 且 类 似 地 (ac) 冬 下 (ra); 因 此 有 &>1。 但 是 如 果 zl>b, 则 (zi,p)E 
EE, 同 & 的 极 小 性 矛盾 ,而 (x1,6b)EE 意味 着 (a ,6b)E 玉 。 类 似 地 如 果 zl1 必 2 则 我 
们 发 现 (b ,zx1)EE 和 (5 ,zx1)EE 都 是 不 可 能 的 。 

13. 对 于 反 序 表 中 51,… ,5%-1,bm+1，"…,b, 的 任何 固定 的 选择 。 当 2 跑 遍 
它 所 有 可 能 的 值 0,1,…,m 一 1 时 ,总 和 Zw; 将 恰 取 每 一 modulo m 剩余 一 次 。 

14. 题 中 提示 的 构造 把 不 同 部 分 的 分 划 的 对 偶 互 相 转 换 , 两 个 情况 j =&= pi 
和 j == ps 一 1 除外。 在 例外 的 情况 下 ,n 分 别 为 (21 -1)+…+7=(3 产 -7)/2 及 
(2j)+…+(j+1)= (3 六 +j)/2, 而 且 有 具有 j 个 部 分 的 一 个 惟一 的 不 成 对 的 分 划 
[Comptes Kendus Acad. Sci. 81(Paris, 1881) ,448 一 450。Euler 原来 的 证 明 , 在 Novi 
Comment. Acad. Sc. Pet. 5 (1754) ,75 一 83 上 ,也 是 非常 有 趣 的 。 他 通过 简单 的 运算 
证 明 :如果 我 们 对 于 n 宇 1, 定 义 s, 为 寡 级 数 1- xz”! z ”1s,41, 则 无 穷 乘积 等 
于 si。Knuth 和 Paterson 在 Fibonacci Quarterly 16 (1978) ,198 一 212 上 讨论 了 Euler 
无 穷 和 的 有 限 形式 ]。 

15. 转 置 点 的 图 式 , 以 从 诸 p 进行 到 诸 P。 容 易 得 到 诸 已 的 生成 图 数 , 因 为 我 
们 首先 选择 任意 数量 的 1( 生 成 函数 1/(1 - z)) ,然后 独立 地 选择 任意 数量 的 2( 生 成 
函数 -1/(1- z*)),… ,最 后 任意 数量 的 ”。 

16. 在 头 一 个 恒等式 中 z”"g” 的 系数 是 把 m 分 划 成 至 多 ”部 分 的 个 数 。 在 第 二 
个 恒等式 中 , 它 是 把 mx 分 成 个 不 同 的 非 负 部 分 的 个 数 ; 即 形 如 mx = pi + za 十 … 


+ 加 的 和 ,其 中 1> 思 >…> ,之 0。 这 各 (= 91+g2+…+gs 相同 ,其 
中 g| 宇 q; 宇 … 宇 q, 之 0, 对 应 关系 为 gq; = pp; 一 n+i[Commentarii Academiae Scien- 
。 .人 333 ， 
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tiarum Petropolitanae 13 (1741) ,64 一 93 ] 。 
注意 :第 二 个 恒等式 是 当 ”一 co 时 ,习题 1.2.6-58 的 q 多 项 式 定 理 的 极限 。 类 
似 地 ,第 一 RE 的 该 定理 的 对 偶 形 式 的 极限 。 


人 DD PE A 
a de es 
我 们 , 当 |g| > 1 时 , 它 等 于 || ,_,(1 + 9 和 (1- 9 1))。 得 到 的 形式 寡 级 数 恒等式 
expv(z)exp,-(- zx) = 1 等 价 于 公式 
Es 1)*g k(k—1)/2 
ol 
它 是 对 于 x = -工时 g 多 项 式 定理 的 一 个 结果 。 





ss 91, 整数 n 之 (0 


17. 0000 0100 0010 0001 
1101 1201 1021 1042 
1010 0110 0120 0102 
1011 O0111 0121 0112 
1001 0101 0011 0012 
2012 0212 0122 0123 


18. 令 g=1-p。 对 于 所 有 有 反 序 a 的 情况 求 和 的 和 数 > Pr(a), 也 可 以 通过 对 
k 求 和 来 计算 ,这 里 0 三 &<n 是 具 下 列 性 质 的 最 左边 的 二 进位 位 置 的 精确 个 数 , 在 
这 些 位 置 中 ,i 和 ; 之 间 有 等 式 成 立 且 对 于 i<j 在 一 个 反 序 X; 中 i >>X 了 中 中 的 XX， 
和 XX; 之 间 也 有 等 式 成 立 。 由 此 我 们 得 到 公式 2 ,2 (p+ qt(p 2" 12" 
OO 和 省 疝 化 得 到 及 (商人 二 四 2 
p= 

19. 反 序 的 个 数 是 2 eC | i)/n|) = 


~\ 
a modn< mimodnj|= 2 mr/ln|(r-(n-r)-(n-r-— 


1)), 它 可 以 被 转换 成 一 ( -1)(n -2)-— Tng (m,n ,0)o[Crelle 198 (1957).162 ~ 


166。] 

20. 请 见 JJ,.Sylvester,Amer.J Math. 5(1882),251~330 ,6(1883),334~336, 
§ 57~ 38 68;E. M. Wright,J. London Math. Soc. 40 (1965), 55 ~ 57; 以 及 J. Zol- 
nowsky ,Discrete Math. 9 (1974),293~298。 


Jacobi 恒等式 可 以 快速 地 证 明 如 下 :因为 
OE i 


k=1 


对 于 g = uwv 习题 1.2.6-58 的 gq 多 项 式 定 理 告 诉 我 们 
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TTa 一 uw ) (1 一 ur lr) 二 (一 Dr "2 ) (2) IT (1 ut- ly) _ 
(Dl 人 (0) (2) 0- yl )ji 一 
J ZU 


J 


中 Co 


两 边 乘 以 上 ， (1 - ww) = [| ,_,(1 =- o99), 并 且 注 意 ,对 于 固定 的 j, 我 们 有 
机 
n+ 


[1-q)=1+O(g"*1 放 )。 当 nn 一 % 时 ,Jacobi 恒 等 式 就 得 到 了 。 


21. 把 C; 解释 成 第 ; 次 输出 后 栈 上 的 元 素 个 数 。( 关 于 2 的 特征 和 栈 排列 的 B 
表 ,请 见习 题 2.3.3-19) 。 

22.(a) 把 数 11,2,…，,2} 安 排 在 一 个 圆周 上 就 如 同 在 一 个 钟 的 面 上 那样 ,并 指向 
1。 然 后 对 于 j= 二 n,n 一 1,…,1( 以 这 个 次 序 ), 以 反 时 钟 的 方向 移动 指针 h;+1 步 ， 
从 这 个 圆周 上 删 去 被 指 的 数 并 把 它 称 为 a;。 

(b) 统 计 每 个 i ,就 像 环绕 CiCi+1 "Qn 那么 频繁 ;这 就 是 对 于 7 之 1 Qi > ai+1l 的 
次 数 。 因 此 ,对 于 w > a;+1 的 每 个 j 对 应 于 曾 被 统计 过 一 次 的 下 标 1,…,;。[ 韩 国 
牛 ,数学 进展 105(1994) ,28 一 29]; 在 下 道 题 的 上 下 文 内 ,Rawlings 得 到 一 个 等 价 的 
结果 ]。 

23. 例如 假设 n=5 和 a1 4a,a3a4as=31425。 对 于 某 个 非 负 整数 的 &, 在 
每 个 死者 之 前 未 射 中 的 个 数 必 定 是 2+ 5k1, 2+ 4k,, 1+3k3,， 1+2k,,， ks;。 注 意 在 上 
题 的 记号 下 ,对 偶 的 排列 14253 有 hh 表 01122。 一 般 地 说 ,得 到 41a,…a, 的 概率 将 是 


2 (gdpi) (ged p,) (gh kp, ) = 


上 0 
站 Ta - — Le 

其 中 p; = 1 gq; 是 在 j 一 1 个 死者 之 后 致命 的 概率 ,而 且 hi1h2…h, 对 应 于 a1a2*…a， 
的 对 偶 。 特 别 是 , 当 pi1=…= p= p=1--g 时 ,这 个 概率 是 gl11 7?”/G,(g)。 
此 最 不 可 能 的 次 序 是 n…21。[J.Treadway 和 D. Rawlings, Math. Mag. 67 (1994)， 
345 一 354;Rawlings 在 Int. J. Math. & Math. Sci. 15 (1992) ,291 一 312 上 把 这 个 过 
程 推 广 到 多 重 集合 的 排列 中 。] 

24. 令 ao=0, 并 且说 ,如 果 a;>>i(aj411), 则 一 个 广 闵 的 下 降 出 现在 j<n 处 。 
在 aj_1 和 a) 之 间 插 入 n 引起 一 个 新 的 广义 的 下 降 当 且 仅 当 a;_1<4(a)<n。 假 设 
当 ; 有 值 放 >7j2>…> 庆 >0 时 出 现 ; 令 j 的 其 它 值 是 j, >j,_1>…> 训 41o。 于 是 jj 
= ,而 且 可 以 证 明 , 当 把 插 在 a; 紧 前 边 时 ,广义 的 下 标 增加 mn 一 k。[ 对 于 某 个 < 
宇 0 ,使 1:())=j+d 的 特殊 情况 是 由 D.Rawlings 给 出 的 , 见 J. Combinatorial Theory 
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A31 (1981) ,17S 一 183;Linear and Multilinear Algebra 10 (1981) ,2$3 一 260 中 他 把 
这 个 特殊 情况 推广 到 多 重 集合 排列 中 j]。 

本 题 对 于 排列 定义 n! 个 不 同 的 统计 学 ,每 个 有 出 现 于 (7) 和 (8) 中 的 生成 函数 
Gn(z)。 我 们 通过 如 下 产生 俄国 轮 盘 的 方法 ,可 定义 许多 这 样 的 统计 :在 ;一 1 个 死 
之 后 ,开始 下 一 轮 射 击 的 人 是 f(al1,…,a;-1), 其 中 f 是 在 {1,…,n| ai， 
a; -1 中 取 值 的 一 个 任意 函数 。 [参见 韩国 牛 ,Calcul Denertien (Thesis, Univ. Stvas- 
bourg,1992),1.3 部 分 , 37]。 

25.(a) 如 果 al<a,,h(a) 有 和 a 一样 多 的 反 序 ,因为 a; 的 元 素 现 在 反 序 zi; 而 
不 是 a,。 但 是 如 果 a1>>a; ,h(a) 的 反 序 个 数 少 n -1 个 ,因为 zi 损失 它 的 a; 的 反 
序 , 以 及 a; 中 每 个 元 素 的 反 序 。 因 此 ,如 果 我 们 置 zx, = a, ,并 且 递 归 地 令 z1… zx, -1 
= f(h(a)), 排 列 Fa) = x1i…zx。 有 所 要 求 的 性 质 。 我 们 有 f(198263745) = 
912638745 以 及 ft -11(198263745) = 192687345。 

(b) 当 a 是 4a 的 道 时 ,关键 之 点 是 inv(a)= inv(a ) 以 及 ind(a )= 
ind(f(a) )。 因 此 如 果 a1=a ,ay= f(a1),a3=a7 ,a4= fi (a3) 以 及 as=ai， 
我 们 有 

inv(as) = inv(a4) = ind(a3) = ind(a; ) = ind(a1 ) = ind(a) 
ind(as) = ind(as ) = ind(a3 ) = ind(a;) = inv(a1) = inv(a) 
[Math. Nachrichten 83 (1978) ,143 一 159] 。 
26.[ 由 Doron Zeilberger 提供 的 解 ] inv(a )ind(a ) 的 平均 是 
2 > [> alle> ao 


a lj<k<n ll<n 
它 是 次 数 过 4 的 ”的 一 个 多 项 式 。 对 于 1<<n<5 计算 这 个 和 给 出 分 别 的 值 0, 六 ， 


,分 , 茸 ; 所 以 这 个 多 项 式 必定 是 二 n(n 一 1) + 去 n?(n 一 1)?。 由 (12) 和 (13), 对 
于 n 之 2, 减 去 mean(g,) 和 除 以 var(g,) 给 出 答案 9/(2n +5)。 

27. 当 把 Gdn"*" 241 当 作 是 一 个 多 重 集 合 的 排列 时 ,我 们 有 inv(QiQ2 an ) 一 
inv(g,…929g1)( 人 参见 $.1.2 小 节 )。 由 此 得 出 ,利用 答案 16 的 记号 和 习题 5.1.2-16 
的 结果 


H,(w,x) 一 > ， vy are,) windtal an) > Zpit'"+p, — 
(1 一 z) (1 一 z” ) a pi 之 … 之 pp 之 0 


> rig 9291) 291+ 42+ +9 一 


91，92 9 之 0 


n 
hit2kt ee 
TO 


hth th t=n 上 ,到 1 RD 
”338 ， 


$.1.1 小节 


nl,,[Lu” | 1 (wu) 一 


k. | 
*w 
At0， k,， Ry, J 


nlsl wu"] || exp,( wu) 三 


nls,Lu*]l[[ | -上 一 
于 是 我 们 有 漂亮 的 恒等式 
1 四 H,(w,z)u” 

4 1 — wren 2 (1 一 由)(1 一 wl ow )(l—z)(l1-— z 2)(1— z”) 
这 是 由 D. P. Roselle 在 Proc. Amer. Math. Soc, 45 (1974) ,144 一 1S$0 上 对 生成 函数 
H,(w,z)= wind(e ) wind(o) 建 立 的 。 习 题 25 表明 同样 的 双 变 量 生 成 函数 统计 下 
标 和 反 序 。 这 里 给 出 的 证 明 是 由 Garsia 和 Gessel 给 出 的 [Advances in Math. 31 
(1979) ,288 一 305] ,他 们 继续 下 去 得 到 更 为 一 般 得 多 的 结果 。 

在 习题 4.7-27 中 置 mx = co 导致 递 推 式 


H,(w,z) = > ("| 2 *([[a — z" 1) )H, i(w,z) 
28 .交换 相 邻 的 两 个 元 素 把 总 共 的 位 移 改变 0 或 十 2; 因 此 td(alas…a,) 夺 


2 inv(alc ay，) 

我 们 也 可 证 明 td(alja>…a) 之 inv(ala an)o 假设 3 是 离开 位 置 的 最 小 元 
素 , 且 设 a,=j。 设 /1 是 使 1<k 和 4, 宇 k 的 极 大 。 交 换 a, 和 a 使 反 序 减少 2(& 一 
1) -1 并 使 总 共 的 位 移 减少 2(&- 171)。 因 此 如 果 为 了 对 一 个 给 定 的 排列 aia2… 
进行 排序 需要 m 次 重复 这 个 算法 ,我 们 有 tdq(aliaz…ans) =inv(ala2…Qan) 二 72 

注意 :一 个 随机 排列 的 平均 总 位 移 是 (mn” -1)/3; 见 习题 5.2.1-7。 看 起 来 对 于 
总 共 的 位 移 的 生成 函数 没有 一 个 简单 的 形式 。 

29. 我 们 可 以 作为 inv(7) 个 转 置 rm 的 一 个 乘积 得 到 7, 其 中 mm 交换 ) 和 7j + 1。 
例如 ,图 1 中 的 通路 1234 一 1324 一 1342 一 3142 对 应 于 rz ,然后 r3, 然 后 ti; 因此 
3142 = tits3t2。 因 此 通过 作 inv(r) 转 置 , 其 中 每 一 个 转 置 使 反 序 个 数 改 变 土 1, rr 
可 从 x 得到。 由 此 得 出 ,inv(xrx ) 夺 inv(Xx)+inv(x’ )。 如 果 等 式 成 立 , 每 个 转 置 增 
加 一 个 新 插入 ,因此 E(xx ) 汪 E(x )。 

反之 ,如 果 E(xx ) 二 E(x ), 我 们 要 来 证 明 | E(x,x)| 一 |E(x)|=inv(xx ) 
-inv(r“) 个 转 置 的 某 个 序列 将 把 x 转换 成 xx 。 这 样 的 转 置 定义 x ,所 以 这 将 证 明 
inv(r)<inv(rr ) 一 inv(x ); 因 此 等 式 必 定 成 立 。 例 如 ,假设 x =314592587 和 上 
(xr ) 二 E(x )。 如 果 E(xr ) 不 包含 (4,1),(5,4),(9,5),(6,2) 或 (8,6), 则 xx 必 
然 等 于 x ,否则 E(xx ) 包 含 它 们 之 一 ,比如 说 (9,5); 于 是 E(xr ) 包 含 下 (rr ) = 
E(314952687)。 这 样 , 我 们 可 以 通过 对 |E(xx )| 一 1E(x )| 利 用 归纳 法 来 证 明 这 
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个 结果 。 
5S.1.2 小 节 


1. 假 的 ,( 由 于 一 项 相当 重要 的 技术 细节 )。 如 果 你 说 是 “ 真 的 ”, 你 大 概 不 知道 
在 4.6.3 小 节 中 给 出 的 MiUM, 的 定义 , 它 具 有 这 样 的 性 质 :每 当 Mi 和 M, 为 集 
合 时 , Mi U M; 也 是 集合 。 实 际 上 a TB 是 Mi 出 M; 的 一 个 排列 。 
2.bcaddadadb。 
3. 肯 定 不 是 ,因为 我 们 可 以 有 a= 8。( 然 而 ,惟一 因子 分 解 定 理 证 明 , 没 有 太 多 
的 可 能 性 。) 
4.(d)T(becd)T(bbecaad)T(babecd)T(ad), 
5. 对 侦 … zz… 出 现 的 个 数 , 等 于 7 的 列 数 , 减 0 或 减 1。 当 z 是 最 小 的 元 素 时 ， 
则 当 且 仅 当 z 不 是 排列 中 的 头 一 个 时 , 诸 出 现 的 个 数 相 等 。 
6. 计 算 两 行 阵列 的 相关 数 很 容易 : | ” ] 人 ”| 。 
7. 利 用 定理 B 的 (a) 部 分 ,类 似 于 (20) 的 推导 给 出 
A-1 B\/C\/B+k\/C-& 
| l 
A-1 BY\Y/CY/B+k—- -1\/C-&k 
[ana l(a Li) ) 
A-1 BY/C\/B+k—-1\/C-& 
的 站 地 | / ) 
8. 完 全 的 质 因 子 分 解 为 (d)T(b5cd)T(b)T(adbec)T(a5b)T(bcd)T(4d), 它 
是 惟一 的 ,因为 没有 相 邻 的 对 偶 可 交换 。 所 以 有 8 个 解 , 且 ac=e(a),(d)T(pc 
d ) ,……o 
10. 假 的 ,但 在 一 些 有 趣 的 情况 下 为 真 。 给 定 质数 的 任何 线性 次 序 , 至 少 有 一 个 
所 述 形 式 的 因子 分 解 , 因 为 每 当 违 反 这 个 条 件 时 ,我 们 可 以 作 一 个 交换 来 减少 因子 
分 解 中 的 “ 反 序 "个 数 。 所 以 条 件 不 成 立 的 原因 仅仅 是 某 些 排列 有 多 于 一 个 这 样 的 
因子 分 解 。 
设 o 一 5 意味 着 o 同 o 可 交换 。 对 于 所 述 的 因子 分 解 的 惟一 性 来 说 ,下 列 条 件 
是 必要 和 充分 的 : 
op 一 6 一 + 且 pc 于 zr 意味 着 oo 一 = 
证 明 : 如 果 p 一 o~t+ 和 pp oc 《rt 且 pX7, 则 我 们 将 有 两 个 因子 分 解 。 Tr Tp。 
=rToTo; 因 此 条 件 是 必要 的 。 反 之 ,为 了 证 明 它 对 于 惟一 性 是 充分 的 , 令 ol T… 
Tor=olT…To 是 满足 条 件 的 两 个 不 相同 的 因子 分 解 。 我 们 可 以 假定 ci 飞 ol , 因 
此 对 于 某 个 有 >>1 有 o1= os; 其 次 ,对 于 1 委 )<R,cl 一 oo。 由 于 ooci=o, 我 们 
有 px-1 飞 cl 因此 &>2。 设 7 使 得 cl <。;, 而 且 对 于 j<i<k, 有 pp; 《or。 则 pj;41 
一 5 一 0 和 pj;+1《o1 《pj 意味 者 pj+1~pj; 因 此 oj 《pj+1, 予 盾 。 
* $60 : 


5.1.2 小 节 


因此 , 若 给 定 在 质 元 素 的 一 个 集合 S 上 的 一 个 有 序 关 系 , 它 满足 上 述 条 件 , 而 
上 且 如 果 知 道 一 个 排列 x 的 所 有 质 因 子 属于 S , 则 我 们 可 以 得 出 结论 说 x 有 所 述 类 型 
的 一 个 惟一 的 因子 分 解 。 例 如 , 当 S 是 (29) 中 循环 的 集合 时 ,这 样 的 条 件 成 立 。 

但 是 ,不 能 用 这 种 办 法 对 所 有 质 元 素 的 集合 排序 。 因 为 如 果 有 ,比如 说 (ap) 到 
(qd e), 则 我 们 被 迫 定 义 


(ab) <(de)>—(bce) (ea)>—(cd) <(ab)~—(de) 


矛盾 。( 也 请 看 下 一 习题 。) 

11. 我 们 希望 证 明 ,如 果 p(1)…p(z) 是 (1,…,z) 的 一 个 排列 , 则 当 且 仅 当 ce) 
Tas = 01T…To, 时 排列 ,0)…zp0i) 被 拓扑 地 排序 ;而 且 如 果 zz 和 
ZXo(1)… zolw) 是 不 同 的 拓扑 排序 , 则 我 们 对 于 某 个 ; 有 op0j) 夺 00(;)。 第 一 个 性 质 可 由 
下 列 事实 推出 :zs 成 为 一 个 拓扑 排序 中 的 头 一 个 的 充 要 条 件 是 cs) 与 co(D -1 
0l 可 交换 (但 不 同 于 它们 ) ;而且 这 个 条 件 意味 着 oy(2)T**…*Toyp() =aiT TaoD -1 
TostriT…To ,所 以 我 们 可 以 使 用 归纳 法 。 第 二 个 性 质 可 由 下 列 事实 推出 ,如 采 
7 是 使 p(j) 二 gq(j) 中 之 极 小 的 , 则 由 拓扑 排序 的 定义 ,我 们 有 ,比如 说 p(j)< gq(j) 
以 及 Zp(j) 站 Xo(j) ;因此 0»(;) 辐 ou) 没有 公共 的 字母 。 

为 了 得 到 一 个 任意 的 偏 序 , 设 循环 cs 由 所 有 使 得 zi<zi 且 :=&A 或 17=& 的 有 
序 对 偶 (i,j;) 组 成 ;这 些 有 序 对 偶 作 为 循环 的 个 别 元 素 以 某 种 任意 次 序 出 现 。 于 是 
对 于 候 序 zi 环 x2 ,zx3 习 x4 ,ZX1 习 x4 的 循环 将 是 o1=((1,2)(1,4)),os = ((1,2))， 
0o3=((3,4)),04=((1,4)(3,4))。 

12. 不 能 形成 其 它 循 环 。 因 为 ,例如 ,原来 的 排列 不 包括 < 列 。 如 果 (a 5c Qa) 出 
现 ;次 , 则 (a5) 必 然 出 现 A-r-s 次 ,因为 有 A 一 7 个? 列 ,而 且 仅 仅 两 类 循环 贡 
献 给 这 样 的 列 。 

13 .在 两 行 的 记号 下 ,首先 放置 形 如 ?的 A - “个 列 , 然 后 放置 其 他 的 上 个 a 于 第 
二 行 中 ,然后 放置 诸 2 ,最 后 放置 剩 下 的 字母 。 

14. 由 于 在 x 的 两 行 记 号 下 ,任意 给 定 的 字母 下 边 的 元 素 , 是 处 于 非 减 次 序 的 ， 
我 们 不 总 有 (x ”) ”= x; 但 是 ((x ) ) = 是 真 的 。 事 实 上 ,恒等式 

(aTB) = ((a- TB)) 
对 于 所 有 的 a,B 成 立 。( 见 习题 5-2) 

给 定 一 多 重 集合 ,其 不 同 的 字母 为 zi<…<z ,注意 到 它们 的 每 一 个 都 有 形 如 
Bi1T… 丁 B。 的 惟一 质 因 子 分 解 ,这 里 6 有 0 个 或 多 个 质 因 子 (x;)T*…T(zx;)T 
(zz TT(zjzh ) ,jh 过 … 过 ,我们 可 以 此 表征 它 的 自 逆 排 列 。 例 如 , (a)T 
(a 5)T(a5)T(5c)T(c) 是 一 个 自 逆 排 列 ,|m*a,n*5| 的 自 逆 排列 个 数 因此 是 
min(m ,7) 十 1; 对 于 {2a,m*b,n*c1 的 自 逆 排列 个 数 是 不 等 式 zz+y 委 1 ,zz+z 委 
m,y+ 之 全 的 非 负 整数 解 xz ,y,xz 的 个 数 。 一 个 集合 的 自 逆 排列 的 个 数 在 5.1.4 
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廊 中 考虑 。 

在 两 行 记 号 下 有 5 个 2 的 出 现 的 ;2 zx1,… ,na* zm| 的 排列 的 个 数 是 ILn;! / 
lLi,jni! ,和 在 两 行 记 号 下 有 ij 个 5% 的 出 现 的 个 数 相同 。 因 此 应 该 有 一 个 更 好 的 定义 
一 个 多 重 集合 排列 的 北 的 方法 。 例 如 ,如 果 像 在 定理 C 中 一 样 ,x 的 质 因子 分 解 是 
or1 To2 TTo4; 则 我 们 可 定义 x = T…To2 Tor ,其 中 (zz ) = (x 
Z1)。 

Dominique Foata 和 韩国 牛 已 经 发 现 , 如 果 以 这 样 的 方式 , 即 x 和 x ”有 相同 个 数 
的 反 序 ,来 定义 反 序 是 更 合乎 要 求 的 ,因为 给 定数 n; 的 反 序 的 生成 函数 是 Hir; 1 / 
I jn!12; 见 习题 16。 然 而 ,看 起 来 这 并 不 是 定义 有 该 性 质 的 一 个 乘 方 的 自然 方 
式 。 

15. 见 定理 2.3.4.2D, 撤 销 该 有 向 图 的 一 条 有 向 边 , 定 能 得 到 一 棵 有 向 树 。 

16. 如 果 XI< TX) ,对 于 诸 zi 的 反 序 表 条 款 必 定 有 oO1… 入 和 的 形式 。 其 
中 bjn (最 右 的 人 并) 的 反 序 的 个 数 ) 至 多 是 n;+1+ 12j+2 十 …o 所 以 反 序 表 的 第 7 部 分 
的 生成 函数 分 划 成 至 多 nj 个 部 分 ,没有 超出 mt+ n;12+… 部 分 的 生成 函数 。 分 


划 成 至 多 m 个 部 分 ,无 超出 ”的 部 分 的 生成 函数 ,是 < 多 项 式 系数 |” ””] ;这 通 


过 归纳 法 很 容易 证 明 ,而 且 它 也 可 以 借助 于 下 . Franklin 给 出 的 巧妙 的 构造 来 证 明 。 
[Amer.J. Math .5 (1882 ) ,268 一 269; 也 请 见 Polya 和 Alexanderson ,Elemente dev 
Mathematik 26〈1971) ,102 一 109。] 对 于 7=1,2,… 把 诸 生成 函数 相 乘 给 出 多 重 集合 
的 排列 的 反 序 所 要 求 的 公式 。MacMahon 在 Proc. London Math. Soc. (2) 15 (1916) ， 
314 一 321 上 发 表 了 它 。 

17. 设 h(z)=(n1,)/n!; 则 所 求 的 概率 生成 函数 是 g(z) = h, (z)/h, (z) ， 


h,,(z)…。 由 等 式 5.1.1-(12) ,in(z) 的 平均 值 是 二 | ” |, 所 以 g 的 平均 信和 是 


I 
类 似 地 ,方差 是 
方 (n(n ~ 1)(2n +5)—- n(ni -1)(2n1,+5)—…)= 


s(n — ni— 73 一) 十 Tn — nf— ns—…) 

18. 是 的 ;可 以 直截了当 地 推广 习题 5.1.1-25 的 构造 。 或 者 ,通过 构造 m 元 组 
(qi1，…“ ,qm) 为 一 方 和 nn 元 组 的 有 序 对 ((a1,…,a;),(p1,…,p;)) 为 男 一 方 这 两 者 
之 间 的 一 一 对 应 ,其 中 9 是 包含 nj; 个 非 负 整 数 的 一 个 多 重 集 合 ,a1…a, 是 |n1:1， 
,nm* Mm| 的 一 个 排列 且 pl 宇 … 宇 p, 之 0, 我 们 可 以 推广 5.1.1-(14) 后 面 的 证 明 。 
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给 定 g, 的 所 有 元 素 的 下 标 ) ,这 个 对 应 和 以 前 一 样 来 定义 。 它 满足 条 件 


DO (gD) to gn) = ind(at as)+(D+ 十 力 ) 
其 中 (gq;) 是 gq; 的 元 素 之 和 。[ 关 于 在 这 个 证 明 中 所 使 用 技术 以 及 等 式 5.1.3-(8) 
的 推导 进一步 的 推广 ,请 见 D.E.Knuth,Math. Comp. 24 (1970),955 一 961。 也 可 参 
见 由 Richard P. Stanley 在 Memoirs Amer. Math. Soc. 119 (1972) 中 所 作 的 广泛 的 讨 
论 。] 

19. (a) 设 $= {1olo 是 质 元 素 ,o 是 的 左 因 子 }。 如 果 S 有 上 个 元 素 ,x 的 使 
zn(A)0 的 诸 左 因子 、 恰巧 是 S 子 集 的 2* 个 插入 (请 看 定理 C 的 证 明 ); 因 此 
六 (A)=Js(1+j(o))=0, 因 为 uy(o)= 一 1 而且 S 非 空 。(b) 如 果 对 于 某 个 j 夸 
&, 有关 = 去, 则 显然 (0 加)=AGr)=0。 否 则 当 i…is 有 7 个 反 序 时 ,e(ii…i,) 
=(-1)7” 当 襟 加 有 ss 个 偶 循 环 时 这 就 是 (-1); 当 羡 … 加 有 上 个 循环 时 它 是 


(一 1)2 
20.(a) 根 据 插 入 的 定义 ,显然 。(b) 根 据 定义 
det( b;;) 一 2 cil in) bi "bmi 
置 b;; = 6; 一 ajzxj ,并 应 用 习题 19(b) ,我 们 得 到 
>》) z 2) ri zi (Zi Ti )v( zi "ri ) 


因为 w(rx) 通 常 为 0。 

(c) 当 我 们 把 诸 xz 的 乘积 看 作 是 不 可 交换 变量 的 排列 时 , 则 利用 自然 的 代数 约 
定 (a+B)TAr=aTAxt+ 6Tr, 可 用 习题 19(a) 来 证 明 DD TG=1。 

D. Zeilberger,Discrete Math. 56 (1985) ,61 一 72 已 经 给 出 这 个 组 合 证 明和 其 它 
重要 定理 的 类 似 证 明 的 一 个 简洁 的 表述 。 


21. 对 于 有 & 雪 0, 如 果 我 们 令 由 = 0, 则 为 Di Mh Md ,因为 有 
Lk 


(下 种 方式 来 把 诸 mm 插入 到 和 71，… ,nm -1 (mm 一 1)1 的 这 样 一 个 


排列 中 。 

22.(a) 对 于 某 个 ,1(x) 的 左右 颠倒 是 在 Po(0*1"…z") 中 ;但 代替 题 倒 7( x)， 
我 们 将 通过 把 0 放 在 顶 行 之 尾 而 不 是 之 首 给 出 它 的 两 行 形式 。 在 2(r) 和 zyr(r) 中 0 
的 个 数 & 是 对 于 ;三 :< 的 x 的 两 行 形式 中 列 和 的 个 数 ; 这 也 是 使 k 志 i<j 的 列 的 
个 数 。 从 1(x) 和 r(x) 的 两 行 形式 我 们 可 以 容易 地 重新 构造 x ,因为 使 j,k 三 : 的 
每 个 列 出 现在 1(x) 中 ,使 1<j,&k 的 每 一 列 出 现在 r(x) 中 , 剩 下 的 列 通 过 从 左 到 厂 
地 把 x) 的 或 ? 同 r(x) 的 ? 或 和 合并 而 得 到 。 

(b) 设 x 是 所 述 形式 的 一 个 排列 ,并 设 c 是 Po(0%w1”Ww… mm"r) 的 任何 排列 。 构 
造 4 如 下 : 删 去 o 的 头 no 个 项 ;然后 以 诸 zz 代替 诸 0, 并 以 r 的 头 no 个 项 来 作 下 

“ 563 . 


习题 答案 





标 ; 以 诸 y 来 代替 其 它 元 素 , 以 x 的 剩 下 的 非 0 项 作为 下 标 。 并 且 还 构造 p 如 下 : 
删 去 c 的 诸 0, 并 且 从 左 到 右 , 根 据 x 的 列 有 k=0 或 k 取 0, 用 xz; 或 y; 来 代 蔡 j 的 

00000011111222233333 00000011111222233333 
i 个 出 现 。 例如, 如果 x = 23131302310102032010 :用 < 32313201103201300201 
我 们 有 = T2Y2Y3TIV V1 TI V2 NITIT1I YHLI3YN1 和 ~ YY3T1TITIYN YYIIYVYI LIL2X10 
反之 ,从 和 op, 我 们 可 以 重新 构造 x 和 c。 

(c) 我 们 在 (a) 的 构造 中 有 w(x)=w(li(x))w(r(x)); 因 为 7 的 列 : 或 变 成 
1(z) 或 r(x) 中 权 w/ws 的 4, 或 者 它 被 因子 分 解 成 有 权 zj/zo 和 zol/ ze 的 列 6 和 &。 
如 果 1 (x) 有 方 个 列 ? 和 9 个 列 , 它 的 权 是 E=21 (ze /zpwys 5) = ID=1( wi| 
zi) Pidjo 现在 1(w/z;) 5 是 瑟 -1(w;/zj)% 的 复 共 轿 ,所 以 对 已 (0 “12 2 ) 的 








所 有 元 素 权 之 和 可 简化 为 
Nn .， 一 | nn ， pi ND 
| 


类 似 的 说 明 对 r(x) 也 适用 。 所 述 之 和 是 正 的 因为 对 于 有 =0 的 项 非 0。 

23. 我 们 可 以 假定 原来 的 线 已 被 排序 。 设 在 上 题 的 部 分 (c) 中 ,t=2,m = 4, wl 
=tw3= zi= z= +1l,w = w= 3=z4= 1。o 于 是 w(x)=( 一 1)“, 其 中 4 是 使 ; 
关上 的 列 7 的 个 数 。[ 见 Cillis 和 Zeilberger ,European J. Comb. 4 (1983),221 ~ 223。 
这 个 结果 首先 由 Askey、Ismail 和 Koornwinder, J.Comb. Theory. A 25 (1978) ,277 一 
287 以 完全 不 同 的 方法 证 明 的 。 他 们 发 现 了 在 多 重 集 合 的 排列 和 (Laguerre) 多 项 式 
Le(z)= 7_o(z+f)( 一 xz)*/k! 的 乘积 的 积分 之 间 有 趣 的 联系 ]。 对 于 五 个 字母 的 
字母 表 类 似 的 结果 为 假 , 因 为 {1,2,3,4,51 的 5! 排列 包括 有 偶数 差 的 1+10+45， 
和 包括 有 奇数 差 的 0+20+44。 


24.() 把 ”了 7 转 过 两 次 恢复 成 二 。 给 定 排序 (2 ) = (2), 通 


过 拷 出 在 硕 上 的 行 中 最 左 的 x 并 把 它 转 置 到 左边 来 使 之 无 序 - 这 引出 适当 的 y。( 排 
序 (2 ”) 的 值 也 是 惟一 确定 的 )。 
.了 2 


(我 们 实质 质 上 把 x 的 两 行 记 号 表达 成 形式 
Xin Vy2 “之 2 | 


2 


- 排序 | 
TI yiZ21 ”yy2 Yi yy 

而 且 部 分 (a) 为 我 们 提供 了 我 们 精确 地 需要 的 工具 。[ 当 R 保持 两 行 记 号 的 某 些 统 
计 学 时 ,这 个 构造 提供 了 一 些 有 趣 的 定理 的 组 合 证 明 。 参 见 韩 国 牛 ,数学 进展 105 
(1994) ,26 一 41。] 


S.1.3 小 节 


1 .我 们 只 需 证 明 对 于 x =&, 当 宇 1 时 ,这 个 值 使 (11) 成 立 。 利 用 (7), 这 个 公 
. 564 ， 
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式 变 成 为 
w= 2 > "= 


”=0 n 


; n+1l\/n+i+k- -r 
i(r 7)” — 
2 7)"| )(* "| 
yo 
当 s<& 时 ,对 7 的 求 和 可 扩展 到 范围 0 二 j 夺 n+1 上 ,而 且 它 为 0(j 的 n 次 多 项 式 
的 第 n +1 次 差分 )。 
2.(a) 由 习题 1.2.6-64 包含 元 素 (1 ,2,"… ,9 ) 的 每 一 个 至 少 一 次 的 序列 Q1Q2 


an 的 个 数 为 1 1g!; 对 于 m = q, 满 足 类 似 于 (10) 的 式 子 的 这 类 序列 的 个 数 为 








gq 
(7 一， ) ,因为 我 们 必须 选择 ng 个 可 能 的 = 符 导 。(b) 对 加 =n-g 和 加 ng 


一 1 把 (a) 的 结果 相 加 。 
3. 由 (20) 


I Bz 


ED) (4)" (~ 2)") 


因此 结果 是 (一 1)”"*1B, 412”1'(2”*! 一 1)/(n +1)。 或 者 , 当 n 为 奇数 时 ,恒等式 2/ 
(e +1)=1+tanhxz 可 让 我 们 把 答案 表示 成 (- 1)4" -527 ,这 里 T, 表示 由 公式 
tanz = Tiz + Taz3131 + Tsz3/S! + … 

所 定义 的 正切 数 。 当 n >0 为 偶数 时 ,由 (7), 这 和 显然 为 0。 
碰巧 ,(18) 现 在 产生 新 奇 的 Stirling 恒等式 

















nN kl! 2B,11(1 — 27+!) 
2 kI(-2)* n+l 
7 n+l 
4 (1Dn+m(7%)( 考 虞 (18) 中 z”+1 的 系数 )。 


5. 通 过 公式 (13) ,习题 1.2.6-10, 以 及 定理 1.2.4F, 对 于 0<k<p， (2) 二 (+ 


1)? ~ k?=(k+1) -kl (modulo p)。 
6. 首 先 对 & 求 和 是 不 允许 的 ,因为 对 于 任意 大 的 1 和 ,这 些 项 非 0, 因 此 绝对 
值 之 和 是 无 穷 大 。 
作为 较 简 单 的 出 错 例子 , 设 aj = (一 7)[1;7-&|=1], 于 是 
2 ( 2270)= > (50) =+1 耐 22an)= 2(- so)=-1 


j 之 0 上 之 0 


* $6065 ， 


习题 答案 


7. 是 的 。[F.N David 和 D.E. Barton,Combinatorial Chance (1962),150~ 154; 
也 参见 习题 25 的 答案 。] 

8.[(Comobinatory Analysis )1(1915),1901 由 容 斥 原理。 例如 ,1/(l + 2)! 31 
(lat+lst Le)! 是 TIC zttt 以 及 TI + +tl+t1l< "< 
ZT1 + + +l+l,+4 的 概率 。 

N.G.de Bruljn 已 经 给 出 了 用 来 计算 其 路 段 长 度 分 别 为 ( ,… ,4) 的 和 1,…,n| 


的 排列 之 个 数 的 一 个 简单 的 O(n”“) 算 法 ,Nieuw Archief voor Wiskunde (3) 18 
(1970), 61~65。 


9 .在 (23) 中 Phem — Ghm dg(m+1)o 因为 Ds mqemz”"z* = 了 8g (Zz,z) 和 g(x,0) 
=1, 我 们 有 
一 1 


x - xz -1 (1->z ')x zz Zz 
h(z,x)= h(xz)r = 8(r,r)(1— 2 十 1 


于 是 hi(z)=e*—-(e*—1)/z;h(z)=(e*— ze’)te—(e -1)/z。 

10. 设 M, = Li+… ++ 上 ;是 均值 ; 则 了 Mx”=h'(1,z) 这 里 是 对 z 求 导数 的 ， 
比如 说 这 是 xz/(e* 1-x)--x/(1 一 x)= M(x), 由 残 数 定理 ,如 果 我 们 沿 着 半径 为 
7 的 一 个 圆周 积 





Ms) "dz = M -2 [n+3)+1+ -1 十 
2Tl 3 








z1 一 1 
其 中 | zij|<r< lz |。( 注 意 在 xz=1 处 的 二 重 极 点 )。 其 次 ,这 个 积分 的 绝对 值 小 
于 $1M(z)|r ”1!1dz= O(r ”)。 在 越 来 越 大 的 圆周 上 积分 就 给 出 收敛 的 级 数 


M,=2n -+ 2 p512R(1/z2 (1 — z)) 


为 了 确定 方差 ,我 们 有 大 (1,z)= 一 2h’(1,z)-2zx(zx—-1)e’ '/(e* 1!— xz)’。 
一 个 类 似 于 已 对 均值 使 用 过 的 论证 (但 这 次 是 对 三 重 极 点 ) 证 明了 h"(1,z) 的 系数 
汤 近 于 4n?+ 他 nn 一 2M， 加 些 较 小 的 项 ;由 此 得 方差 的 渐 近 公式 所 n+ (加 上 指数 
较 小 的 项 )。 

11. Pi = 2, 1 ID(O 1 ns1), 其 中 D(A,72,…,l4) 是 习题 8 的 
MacMahon 行列 式 。 按 它 的 头 一 行 计 算 这 个 行列 式 ,我 们 求 出 Po = coPu-D，+ 
ciPar- 2Dnt 十-2 二 lan 一 五 上 (72) ,其 中 Cj 和 EE; 定义 如 下 : 

jy yj mm 1 
4= (~1) 之 (tz1 tttn)! (1 > | re + DD! 


.。 之 之 
和 1 三 30 “J 


1D (7! | er 


m0.J 了 7 


En)= 1/(n+1)!l -1/n!; (2) = 1/(n + 1)!; 
$566 : 
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Eln) = (De ”ji >3 


全 人 有 一 3 人 7 二 2 十 7) 
设 Pu =0,C(z)=2cw=(e -1)/(1->z), 并 设 
E(xz,x)= DErri(n) "re 一 一 er 十 2 一 
x (el 一 ex) 1 e 一 上 一 > 
(1 ~ 7x)(1—-zxz—- xz) z(1—x) 
我 们 已 经 导出 的 递 推 关系 等 价 于 公式 C(x)H(z,z)= 晶 (z,zx)/x+E(z,x); 因 此 
H(z,7X)=E(z,z)zx(1 一 +)/(zxe “一 1)。 展 开 这 个 办 级 数 给 出 Hj(z)= hi(z) 
(见习 题 9); H(z)=ehi(z)+1-e”。 

[ 注 : 头 三 个 路 段 的 生成 函数 是 由 Knuth 导出 的 ,CACM 6 (1963),685 一 688。 
Barton 和 Mallows, 在 Ann. Math. Statistics 36 (1965) ,249 页 上 指出 了 对 于 nn 宇 1 的 
公式 1 一 Hti(z)==(1 一 ,(z))/(1 一 z) 一 Lhi(z) 和 公式 (25)。 解 决 这 个 问题 的 
为 一 个 方法 在 习题 23 中 说 明 。 由 于 相 邻 的 路 段 是 不 独立 的 ,在 这 里 所 解决 的 问题 
和 习题 9 的 更 简单 (但 大 概 更 有 用 ) 的 结果 之 间 ,没有 简单 的 关系 。] 

12.[Combinatory Analysis 1 (1915) ,209 一 211]j 把 多 重 集合 放置 到 1 个 可 区 
别 的 盒子 中 的 方式 数 为 


N, = (人 
因为 有 (人! "1 ”1 种 方法 来 放置 诸 1, 等 等 。 如 果 要 求 没有 空 的 盒子 , 则 容 斥 原理 
告诉 我 们 方式 数 为 


i 上 
ws 人 ss 


设 Pi 是 有 下 个 路 段 的 排列 数 ;如 果 我 们 在 诸 路 段 之 间 放 置 上 -1 条 垂直 的 线 ,并 且 
在 2-& 个 琵 下 的 位 置 上 的 任何 地 方 放置 上 -和 & 条 另外 的 牌 直线 , 则 得 到 把 多 重 集 
合 分 成 上 个 非 空 的 可 区 别 部 分 的 M, 个 方法 之 一 。 因 此 


一 上 十 1 一 大 十 2 
M, = 已 + |” | jP + (” jP + 


2 
等 置 两 个 M, 的 值 ,就 可 借助 于 Ni,N,,… 逐 次 地 确定 P;,,P,，，…。( 我 们 希望 见 到 
一 个 更 直接 的 证 明 。) 
13.1+ 广 13X3=20.5。 


14. 由 Foata 对 应 式 , 给 定 的 排列 对 应 于 

1111222233334444 
0 311234321131224 4 
由 (33) 式 这 对 应 于 


”2307 ， 





1111222233334444 
2443331144212123 

这 对 应 于 具有 9 个 路 段 的 2342341421432131。 

1$. 交 替 路 段 的 个 数 是 1 加 上 使 得 1<7J<7z 且 ai<oa>oayi 或 wii>a< 
41 的 j 的 个 数 。 对 于 固定 的 刀 这 个 概率 为 乞 ; 因 此 对 于 "之 2, 平 均 是 1+ 与 (7 
2 

16. 当 新 的 元 素 n 被 插入 到 所 有 可 能 位 置 时 ,|1,2,…,n 一 1 上 的 每 个 有 上 个 
交 蔡 路 段 的 排列 产生 带 有 个 这 样 路 段 的 & 个 排列 , 带 有 有 有 +1 个 这 样 路 段 的 2 个 
排列 ,以 及 带 有 +2 个 路 段 的 nn 一 & 一 2 个 排列 ,因此 


EE 
人 m1 = ao,Gi(z)=1 是 方便 的 。 于 是 


Gs (eS Ve 
微分 导出 zx, = G'(1) 的 递 推 式 


py 二 ((n 0 ee 0 


而 这 对 于 n 之 2 有 解 z, = 池 n 一 记 。 另 一 个 微分 导致 对 于 w = G%(1) 的 递 推 式 


1 8 26 
Yn 一 le — 4) -1 下 本 加 区 于 + 6 
> > 4 ， 14 11 
置 y, = an*+ Bn+7Y 并 对 a,B,Y 求解 ,对 于 n 宇 4 得 到 yn on -Tsn+ on° 因此 


var( g, ) = jo(16n -29),n 之 4。 


这 些 均值 和 方差 的 公式 是 ]. Bienaymé 给 出 的 ,他 未 加 证 明 地 指出 了 它们 LBull. 
Soc. Math. de Frauce 2 (1874),153~154;Comptes, Rendus Acad. Sci. 81 (Paris, 1875 ) ,417 


一 423, 也 请 看 458 页 上 Bertrand 的 注 记 j]。 | "| 的 递 推 关系 是 D. André 给 出 的 [Comptes 
Rendus Acad. Sci. 97 ( Paris, 1883),1356~ 1358;Annales Scientifiques. de I’Ecole Normale 
Superieure (3) 1 (1884) ,121 一 134]。Andre 说明 对 于 n 宇 4,g,( 一 1)=0; 因此 ,具有 偶 


数 个 交替 路 段 的 排列 的 个 数 是 n! /2。 他 也 证 明了 均值 的 公式 ,并 确定 了 具有 极 大 的 
交 蔡 路 段 个 数 的 排列 的 数目 (见习 题 5.1.4-23)。 可 以 证 明 


1+z\" 有 1 一 也 /1 一 > 
Gis | (1+ zw) 人 Ww 一 1 之 
其 中 g, (zx) 是 递增 路 段 的 生成 图 数 (18)。[ 见 David 和 Barton ,Compinatorial Chance 
， $068 : 
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(伦敦 :Griffin ,1962) ,1S7 一 162] 。 
aaa ia 
17. (2 有 3b—2 上 以 0 结尾 ， 2 有 8 一 1 信 以 1 结尾 。 


18.(a) 设 给 定 的 序列 是 如 同 在 5.1.1 布 中 的 一 个 反 序 表 。 如 果 它 有 个 递 降 
的 路 段 , 则 对 应 的 排列 的 反 序 中 也 有 个 递 降 ,( 见 管 案 5.1.1-8(e)); 因 此 答案 是 


(7)。 (b) 这 个 量 满足 f(n,k)= kf(n 一 1,k)+(n 一 kt+1)fl(n 一 1,k 一 1), 因 此 它 
必定 是 (，”, )。 [参见 D. Dumont,Duke Math.J. 41 (1974).313~315.,| 
19. (a) 由 定理 5.1.2B 的 对 应 结果 得 (”)。 (b) 有 (nk&)! 种 方式 把 另外 的 


-个 不 相 拼 的 车 放置 到 整个 模 盘 上 ;因此 答案 是 1/(a- 如)! 乘 允 ,>o0 (7 | ,其 中 





由 部 分 (a) ,as= 人 7)。 由 习题 2, 这 导出 | ”， 
binatorial Analysis (Wiley ,1958) 的 第 5 章 一 般 地 讨论 了 车 的 设置 问题 ]。 

由 (也 .A.Bender) 给 出 的 关于 这 个 结果 的 一 个 直接 证 明 ,把 使 11,2,…,2 + 分 成 
为 有 & 个 不 相交 的 非 空子 集 的 每 一 分 划 与 (2 一 &) 个 车 的 一 种 排列 联系 起 来 : 设 分 划 
是 


。 [Riordan 的 Introduction to Com- 


{1,2,.…,n] 一 [anyaty aln| U “"? U [aal ap2 s,Qpn, | 
其 中 对 于 1 志 } 志 nn,1 志 i 有 a;<<aicj+1)e 对 于 1 二 ;7 二 nn; ,1 二 i 二 ,对 应 的 排列 
把 这 些 车 放置 到 a;(;41) 行 a; 列 中 。 例 如 ,图 4 中 所 示 图 形 对 应 于 分 划 {1,3,8|U 
{2}U {14,6} U1{S1U1!7}。 

20. 阅 读 的 次 数 是 逆 排 列 中 路 段 的 个 数 。 头 一 个 路 段 对 应 于 头 一 次 阅读 ,等 等 。 

21. 它 有 72+1- 个 路 段 并 需要 +1-7 次 阅 旋 。 

22.[J .Combinatorial Theory 1 (1966),3S$0 一 374] 如 果 < 2 , 则 某 次 阅读 
将 挑 出 i >>r 个 元 素 ,a; =j+1,…,a; 二 j+t, 其 中 局 <…<i。 对 于 在 i 全 m 志 
i,+1 范 围 内 的 所 有 mx ,我们 不 可 能 有 a,, > a +1; 所 以 这 个 排列 至 少 在 1 -1 个 位 置 
上 有 a am+1; 因 此 它 至 多 有 n 一 1:1+1 个 路 段 。 

另 一 方面 ,考虑 排列 a,…asai ,其 中 块 区 a; 以 递减 次 友 包 含 数 三 ;j(modulo r); 
例如 , 当 n=9 和 和 +=4 时 ,这 个 排列 是 847362951。 如 果 nn 宇 2r 一 1, 这 个 排列 有 一 
1 个 递增 ,所 以 它 有 n+1 一 r+ 个 路 段 。 而 且 , 如 果 rr>1, 它 恰好 要 求 n+1 一 [nfr 1 次 阅 
读 。 我 们 可 以 任意 地 重新 安排 和 {kr + 1,… ,kr +r| 的 元 素 而 不 改变 路 段 的 个 数 ; 这 样 ， 
我 们 可 以 把 阅读 的 次 数 减 少 到 宇 | nf/r | 的 任何 所 要 求 的 值 。 

现在 假设 rs 之 n 和 r+s 志 n+1, 以 及 r,s 之 1。 由 习题 20 和 21 ,我 们 可 以 假定 
< ,因为 有 72+1-> 个 路 段 和 s 个 阅读 的 一 个 排列 的 反 序 的 反射 有 ?+1-s 个 路 
段 和 7 个 阅读 。 于 是 上 一 段 中 的 构造 处 理 了 除 s>n+1-『n/r | 和 rvr 之 2 之 外 的 所 
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习题 答案 





有 情况 。 为 了 完成 证 明 ,我 们 可 以 使 用 形 如 
2&+128 1172+2-7 n+l-7r2k+2 2427+3 一 7 一 工 7 


的 一 个 排列 ,对 于 0<h<F(n 一 7), 它 有 n+1 一 r 个 路 段 和 n+1-r 一 & 个 阅读 。 


23.[SIAM Review 3 (1967),121 一 122] 假设 无 穷 排 列 由 取 自 于 一 致 分 布 的 
独立 样品 组 成 。 设 f(z)dzx 是 第 & 个 最 长 的 以 z 开始 的 概率 ,而且 设 g(u,x)dz 
是 当 上 一 个 长 路 段 以 x 开始 时 后 一 个 长 路 段 以 z 开始 的 概率 。 因 此 有 户 (z) =1， 
frri(z)= [ofi(u)g(u,zx)duo 我 们 有 g(u,z)= 21g8m(u,r), 其 中 

gn (usr)=Pr(u< Xi<…<X, >zr 或 uw > XI>*…>X,<7r)=Pr(u< Xi< 
“KR, )+Pr(u>Xi>>X,) -Pr(u< Xi<<X, <zr)-Pr(u> Xi>…> 
X >7x)=(u”+(l—-w)”t+ [ua—-zl”)/m! 

因此 g(u,r)=ertel *—-1-el* =| ,而 且 求 出 f(x)=2e-1-e*-e *。 
可 以 证 明 f(z) 趋 近 于 极限 值 [2cos| = -地 jsin 闻 -cos 序 ]|3sin 记 -eos 了 )。 
以 z 开始 的 一 个 路 段 的 平均 长 度 是 ef +e ”一 1; 因 此 第 个 长 的 路 段 的 长 度 奴 
”是 [f(zx)(e*+e! -1)dz;% =2e-3X2.43656; 色 =3e -8et+2 守 2.42091。 类 
似 的 结果 见 5.4.1 节 。 

24. 如同 前 面 一 样 进行 论证 ,结果 是 
1+ 2, 2:(p + gq )*(p*+2pa(2”" “1—1+g((2pg)” “  — 1)/(2pg — 1))) 


0 k< 


求 和 ,并 人 简化 之 得 出 
2"(p° + «)" [pl2 - q)/(p*+q -pa)-— 3 + (2pq)"pg I(p + q )x 
(p” 十 gq” pq) 十 gq/(p” 十 0 ) + 27-1 
25 . 令 W=(U1T+T 十 LU ) mod 1; 则 V1, VV, 是 在 [0..1) 中 独立 一 致 的 随 
机 数 , 并 且 当 和 且 仅 当 |L Ui1+…+ Us = 时 形成 有 个 递 降 的 一 个 排列 。 因 此 ,答案 


是 (7 DE 1 ,这 是 首先 由 S. Tanny[Duke Math.J,40 (1973) ,717 一 722] 首 先 注意 到 的 


一 个 性 质 。 

26. 例 如 ,065(1- z) :=(z 一 26z2+66z3+26z +z)1(1-z)。 

27. 下 列 规则 定义 了 一 个 一 一 对 应 , 它 把 有 并 个 递 降 的 一 个 排列 aiaz…a。 对 应 
到 有 到 +1 个 叶 的 一 个 款 节 点 递增 的 森林 : 头 一 个 根 是 al, 它 的 后 裔 是 对 应 于 az… 
a 的 森林 ,其 中 是 使 得 a ;1<ai 的 极 小 值 或 者 有 = n。[R.P. Stanley,Enumera- 
tine Combinatorics 1 (Wadsworth ,1986) ,命题 1.3.16]j。 

28.L(xz) 的 极 是 T(1/e) 的 诸 值 ,其 中 T(z) 是 由 T(z)= ze ”所 定义 的 (多 
值 ) 树 函数 。 于 是 对 于 m >0, 我 们 有 收敛 级 数 

"9370 ， 
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) + 
=—-1- (2m+ 1)xi 





nl| (ln 
ZM 二 一 Om 十 DE (nor 


“0 Om (nt1—k)!’™ 
[ Corless ,Gonnet ,Hare ,Jeffrey 及 Knuth, 《计算 数学 进展 〉 5 (1996) ,329 一 3$9，， 


公式 (4.18)。] 特 别 是 ,我 们 有 z= (2m + 二 zi+ ln(2xem)+ - 3 jin(2rem))| 


2 4 2x 
m+ O((logm)’/m’)。 
令 P(z)= 2 了 %-0(z/(z 一 zn)+ xz/(z'z)), 由 此 得 出 ,对 于 xz>1,P(zx)--P 
(— x)= m04R(rza/( x- 2% )) = DAO log m)/(x* + m’))= 310 
((z log xX)/z )+ -t+10((x log m)/m“) = O(log x)。 但 我 们 知道 ,对 于 某 个 
c,L(zx)+ P(xz)= crz; 因 此 2cr=L(xz) 一 L( 一 xX)+ O(log zx), 而 且 通 过 在 (25) 中 
含 z 一 吕 ,我们 求 得 c= 一 1/2, 因 此 Li = 了”_0xriicos9, -1/2,( 这 一 结果 是 由 


Svante Janson 给 出 的 )。 
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1. 1345789 
Tal] FEEE (1331s) 
21419| 
619| 617| 


2. 当 把 p; 插入 到 列 : 中 时 , 设 列 1 -1 中 的 元 素 是 记 。 则 (a , 方 ) 是 在 类 上 -1 
中 ,gq;< ai ,而且 p;<p;; 所 以 由 归纳 法 ,存在 具有 这 个 性 质 的 下 标 让 ,…,i,。 肥 之 ， 
如 果 gq;< qi 和 p< pi 而且 如 果 (q;,pj;) 在 类 4 一 1 中, 则 当 插 入 p; 时 列 : 一 1 包 合 一 
个 <p; 的 元 素 , 所 以 (q;, pi) 在 之 t 的 类 中 。 

3. 当 插入 p; 时 ,这 些 列 是 “冲撞 序列 "(9)。 行 1 和 2 反映 了 对 于 行 1 的 操作 ， 
参见 (14) 。 如 果 我 们 撤销 其 行 2 有 co 的 项 的 一 些 列 , 则 如 同 在 (1S$) 中 那样 , 行 0 和 
行 2 组 成 撞 下 的 阵列 。 从 行 丰 进行 到 行 &+l 的 所 述 方法 , 恰 是 正文 中 确定 类 的 算 
法 。 

4.(a) 对 图 表 的 大 小 用 归纳 法 ,利用 一 个 例子 分 析 ,并 首先 考虑 对 于 行 1 的 影 
响 ,然后 考虑 对 于 由 行 1 撞 下 来 的 元 素 序 列 的 影响 。(b) 可 允许 的 交换 可 以 模拟 算 
法 I 的 操作 , 且 把 图 表 表 示 成 在 这 个 算法 之 前 和 之 后 的 一 个 规范 排列 。 例 如 ,通过 
一 个 可 允许 的 交换 序列 (参考 (4) 和 (5)) ,我们 可 以 把 

17 11 4 13 14 2 6 10 15 1 3 5 9 12 16 8 
变换 成 为 
17 11 13 4 10 14 2 6 9 15 1 3 5 8 12 16 

5. 可 允许 的 交换 是 左右 对 称 的 ,而 且 当 苏 倒 插入 次 序 时 ,P 的 规范 排列 显然 地 
成 为 Pi。 

6. 设 共有 :类 ;这 些 类 中 恰 有 个 有 奇数 个 元 素 , 因 为 一 个 类 中 的 元 素 的 形式 
为 

571 ， 


(pi » Pp; )， (pi ,Pi,), “) (pi ,pi ) 

( 见 (18) 和 (22))。 撞 下 的 两 行 阵 列 恰 有 1 一 & 个 不 动 点 ,这 是 由 于 构造 它 的 方法 所 
致 ;因此 ,由 归纳 法 ,这 个 图 表 减 去 它 的 头 一 行 后 ,有 t 一 个 奇数 长 度 的 列 。 所 以 在 
头 一 行 中 的 上 个 元 素 导致 整个 图 表 中 个 奇数 长 度 的 列 。 

7. 列 的 数目 ,即行 1 的 长 度 , 是 类 的 数目 (习题 2)。 行 数 是 P” 的 列 数 ,所 以 习 
题 5( 或 定理 D) 完 成 了 这 个 证 明 。 

8 .对 于 多 于 n? 个 元 素 ,对 应 的 P 图 表 必 须 或 者 多 于 行 或 者 多 于 n 列 。 但 有 
n Xn 的 图 表 [ 这 一 结果 最 初 是 在 Compositio Math 2 (1935),463 一 470 中 证 明 的 ]。 

9. 这 样 的 排列 同形 如 (n,n,…,n) 的 图 表 的 对 偶 有 一 一 对 应 关系 ,所 以 由 (34)， 

， n2! A(27 —1,2n 2, ,7n)\ 7 1 “ 

答案 为 (27 一 1)1 (272 一 2)1 in! EE TE ° 
对 于 这 个 问题 ,存在 这 样 一 个 简单 公式 ,真是 惊人 。 我 们 也 可 以 计算 没有 长 于 m 的 过 
增 子 序列 和 没有 长 于 n 的 递减 子 序列 的 {1,2,… ,mn| 的 排列 数 。 

10 .我 们 归纳 地 证 明 在 步骤 S3 中 ,P,， 和 Po 0D) 都 小 于 P44w), 和 Ps+1)o 

11 .我们 当然 也 需要 知道 原来 兽 是 Pi 的 元 素 。 然 后 有 可 能 利用 颇 类 似 于 算法 
S 的 一 个 算法 ,来 进行 恢复 。 

12. 人 )+ 人 1 Ft 人 ”)- I 上 , 即 总 共 的 遍历 距离 。 
极 小 值 是 习题 1.2.4-41 的 序列 1,2,2,3,3,3,4,4,4,4… 的 头 n 项 之 和 ;这 个 和 近似 
于 /819n32。( 按 照 习 题 29, 在 ”个 元 素 上 的 几乎 所 有 图 表 都 相当 接近 这 个 下 限 ， 
所 以 平均 次 数 是 896(z3?))。 

13. 假 设 排列 的 元 素 是 |1,2,…,n| ,因而 a;=1; 并 且 假 设 a;=2。 和 情况 1,j<i。 
则 1 撞 下 2 ,所 以 对 应 于 a.…a;-14;41…as 的 图 表 的 行 1 是 P? 的 行 1; 而 且 撞 下 的 
排列 除了 它 的 最 小 元 素 2 外 ,是 以 前 被 撞 下 的 排列 ,所 以 我 们 可 以 对 n 用 归纳 法 。 
情况 2,j>i。 对 PT 应 用 情况 1, 并 利用 习题 5 及 (P')*=(P?)* 这 一 事实 。 

15. 如 同 在 (37) 中 那样 , 例 中 的 排列 对 应 于 图 表 


259 
31617 
4|8110 

因此 此 数 为 f(lm,n)=(l+m+tn)! (Ll-m+l)(l-n+2)(m- n+1)/(! 
+2)!1 (m++1)! (2)1 当然 ,假设 7 之 加之 7。 

16. 由 定理 H,80080。 

17. 由 于 g 对 诸 zx 是 反对 称 的 , 当 xz; = zi 时 它 为 0, 所 以 对 于 所 有 的 ;<7 它 可 
以 被 z; - zx; 所 整除 。 因 此 g(xi,…,zn;y)= 二 (zi ,Xn;y)A(Zz1,… ,Xn)。 这 里 
hh 必须 是 总 次 数 为 1 的 对 zx1，… ,zs,y 齐 次 的 ,而 且 对 于 z1，… ,x 是 对 称 的 ;所 以 
对 于 仅仅 依赖 于 n 的 菜 个 4a,5,h(zi,…,Xn;y) 二 a(Xi+… 十 x4)+ by。 我 们 通过 

. 572 ， 
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置 y=0 可 以 计算 ac; 通过 对 > 求 偏 微 商 ,然后 置 y=0 可 以 计算 5。 我 们 有 
O 
ee th ee ee Bx ST1r yzn) 三 A(zly 


最 后 





> D(a 加 这 > = 2 > CoC EE X;) EE i = 2 二 网 


是 的 次 
数 为 m -的 齐 次 对 称 多 项 式 。 我 们 有 


人 EC A( x1, ,Th ) > 人 三 区 


a 的 所 有 | ”， 种 选择 进行 求 和 。 现在 在 bs = 忆 zz/ 
[DC -zj; ) 中 ,我 们 可 以 组 合 那些 有 一 个 给 定 的 下 标 集 合 1i,71,…, 庆 1 的 k+l 
项 的 组 ;例如 , 当 训 =2 时 ,我 们 组 合 形 如 a*/(a-b)(a-e)+6"/(b-a)(b-e)+ 


c”/(c 一 a)(c 一 5) 的 三 项 的 集合 。 每 个 这 样 的 组 的 和 ,由 习题 1.2.3-33, 是 [xz”“] 
人 
a 
Bi Ds | Sp 入 
其 中 s(p1,…,p;) 是 对 于 不 同 的 下 标 1 zt"… zh 的 所 有 


sn na a ir nn mm 一 上 上 恰好 7 个 部 分 的 所 
有 分 划 进 行 的 , 即 pl 宇 … 宇 pj; 宇 1,p1+…+p;= m 一 k。( 这 个 结果 是 作者 同 E.A. 
Bender 一 起 于 1969 得 到 的 )。 


当 m=2 时 答案 是 [562)+ (2 -1)s()9+ [”]yjA(zi… zo); 对 于 m=3 


我 们 得 到 (s(3) + ((n—1)s(2)+s(1,1))y+ ,sDy+ Wes 三 
2 
为 一 个 表达 式 , 作 为 


nn > es! k+l Ze JU 二 
(本 < jez re ja 人 ) 
中 z” 的 系数 给 出 5b, 其 中 6, = Ts ‘<i nT 2 是 一 个 初等 对 称 吨 数 。 乘 以 
六 并 对 上 进行 求 和 即 给 出 答案 , 它 是 


| 本 
| (1 — zr1)'**(1 — zx,) 1 az ji 
中 z” 的 系数 。 


19. 设 转 置 图 表 的 形状 是 (ni 9 和 》 n; ) ;答案 是 
fh 


习题 答案 





(2 on9) 


Ff mn na) +1) 


其 中 n= 史 , = 台 ny 。( 利 用 关系 式 吕 in; = 地 (n+ 台 n3), 这 个 公式 可 以 被 表达 成 
不 大 对 称 的 形式 )。 

注意 :W. Feit[LProc. Amer. Math. Soc,4 (1953) ,740 一 744] 证 明 ,把 整数 |1,2， 
…, 2 放置 到 作为 两 个 图 表 形 状 (2 ,…, nm) \ (Li ,… ,1 ) 之 “ 差 ” 的 一 个 数组 中 ,其 
中 0 过 4 过 nn 和 7 = 了 开 ( 一 出 ) ,其 方式 个 数 为 ml det(1/((n 一 让 一 (4 一))1)。 

20 .在 定理 HH 之 后 的 讨论 中 靠不住 的 论证 ,实际 上 对 于 这 一 情况 是 正确 的 (对 
应 的 概率 都 是 独立 的 )。 

注意 :如 果 我 们 考虑 对 节点 进行 标号 的 所 有 n! 种 方式 ,这 里 所 考虑 的 标号 是 
没有 “ 反 序 ” 的 那些 。 当 树 只 不 过 是 一 条 通路 时 这 一 特殊 情况 下 ,排列 中 的 反 序 和 树 
标号 中 的 反 序 相同 。 参 见 A. Bj5rner 和 M.L.Wachs,J. Combinatorial Theory AS2 
(1989),165~187。 

21.[ Michigan Math .J.1 (1952),81 一 88] 设 g(niy 2) 一 (1 十 十 7 1 
AC(niy na)/n!l na! on Nm); 其 中 oo (zi, ,zi) = Iiicj<m (rit 
x;)。 为 证 明 g (ni1,…, nm) 是 填充 移 位 图 表 的 方式 个 数 , 我 们 必须 证 明 g (n1,…， 
nn )= 二 gn 一 1 2)+…+g(2 ,Nm 一 1)。 对 应 于 习题 17 的 这 个 恒等式 是 
TI1A(zit ys Ta) fo Tit yy, Ta) t+ ra A zis, Ta t y/o ris, Tat y) 
二 (Xi 十 x )A(zi Xn)/o(Zzi，,"… ,Xz ), 同 y 无 关 ; 因 为 如 果 像 在 习题 17 中 
那样 计算 微 商 , 则 我 们 求 得 2zizi/( 加 x1) 十 2ziZi 人 (Zi 加 Zi) =0o 

22 .假设 m= NN ,必要 时 把 一 些 0 加 到 这 个 图 形 上 ;如 果 mr >N 和 n>>0, 则 方 
式 数 显 然 为 0。 当 m= N 时 ,这 个 答案 是 


+m—1 +m—2 几 
| 1 加 本 


nit+m—1 n2+m—1 Nn 
(0 
证 明 我们 可 以 假定 ww =0, 因 为 如 果 zw >0 则 这 个 阵列 的 头 ar 列 的 第 i 行 
必然 填 的 是 i ,而 且 我 们 可 以 考虑 剩 下 的 图 形 (n1 一 nn ,…,nm 一 nm)。 通 过 对 m 用 
归纳 法 ,方式 数 成 为 


det 


kj+m-2 /Jkt+m—3 ki 
| mC—2 | mC—2 本 一 ,| 
det : : 
人 kjt+m—-2 1 人 + 一 3 有 | 
mh | 0 | 0 | 0 
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其 中 n; 一 表示 在 行 ; 中 诸 mx 的 个 数 。 对 于 每 个 局 的 求 和 可 以 独立 地 进行 ,由 此 














得 
nit+m—1 M3 Fm = 2 hg TR 2 7M3 十 7 一 3 | | 
GE A ts 

det 
nt+m-l m+m-2a nt+m-2 nt+m-3 n+l nm, 
i 














即 是 所 求 的 答案 ,因为 n,, = 0。 通 过 行 运算 ,这 个 答案 可 以 转化 为 一 个 Vander- 
monde 行列 式 , 同 时 给 出 公式 A(nj+ m1,np+ m 一 2,… ,nn)/(m -1)! (m-— 
2)! …01。[ 这 一 习题 的 答案 , 同 群 论 中 一 个 等 价 的 问题 相 联 系 , 它 出 现在 D.E. Lit- 
tlewood 的 Theory of Group Characters 牛津 ,1940),189 中 。| 

23.[Journalde Math.(3) 7 (1881) ,167 一 184.]( 这 是 对 于 长 度 为 2 的 所 有 路 
段 ,习题 5.1.3-8 的 一 种 特殊 情况 ,除开 最 后 一 个 路 段 可 能 有 长 度 1 外 。) 当 nn 宇 2 时 ， 
元 nn 必 出 现在 一 行 的 最 右边 的 位 置 之 一 上 ;一 旦 已 经 把 它 放 到 第 上 行 最 右边 的 


杠 中 ,我 们 便 有 | ) Az4 -1A，-24 种 方式 来 完成 这 一 工作 。 设 


h(z) = >》A，iz2n-1l1(22 1)! = 


3(g(z) = 


出 
JR 全 2 | ] Aa As aniern! ( 2 Anriz" hn! ) —1] = 
k,n 之 1\2k—1 之 1 
Je 


以 一 z 代替 x 并且 相 加 ,得 到 有 hh(z)*=h’(z) 一 1; 因 此 ,h(z)=tan xz。 置 k(z)=g 
(z) 一 h(z), 我 们 有 h(z)k(z)=&(z); 因 此 k(z)=secz 和 pg(z)=sec z+tanzz 


-tan[ 广 =+ 才 xj]。 因 此 系数 A2。 是 欧 拉 数 |E2, | ;系数 A2，-1 是 正切 数 Ta := 


(一 1)” 4”(4” 一 1) Bp,/(2n)。 这 些 数 的 表 出 现 于 Math. Comp. 21 (1967) ,663 一 
688 中 。 这 个 序列 以 (Ao,Ai,A,,…)=(1,1,1,2,5,16,61,272,1385,7936,… ) 开 
始 。 计 算 正 切 数 和 欧 拉 数 最 容易 的 方法 大 概 是 构造 三 角 数 组 


0 


1 
0 ] 
1 1 0 
0 1 2 2 
S 3 4 2 0 
0 5 10 14 16 16 
61 61 56 46 32 16 0 


其 中 部 分 和 是 交 蔡 地 从 左 到 右 和 从 右 到 左 形成 的 LA.J]. Kempner,To6hoku Math.J. 
37 (1933),348~349]。 

25 .一般 地 说 ,如 果 wi 是 没有 长 度 >& 的 循环 的 [1,2,… ,nj} 上 的 排列 的 个 数 ， 
则 Durz"/n! =exp(z+ z /2+ … 十 zt/k); 这 可 以 通过 exp(z) Xx exp( zx*/k ) 来 


证 明 ,并 且 得 到 

>" 2 1/171j11212j2 1 ); 
也 可 参见 习题 1.3.2-21。 类 似 地 ,exp( ,ee sz'/s) 是 对 于 这 样 的 排列 的 生成 也 数 ,这 
些 排列 的 循环 的 长 度 全 都 是 一 个 给 定 集合 S 的 元 素 。 

26. 由 人 徊 马 函 数 积分 ,从 0 到 co 的 的 积分 是 2 和 DA4F(GET+1)12)12473)72( 见 习 
题 1.2.5-20,z 上 =2z2Vza)。 所 以 从 - co 到 co, 当 :上 为 奇数 时 我 们 得 到 0, 和 否则 
nt VAY rt 23+ V2( 722) 16 

27. (a) 如 果 rr; < r;+1 和 和 c; 之 ci41, 则 条 件 i < Qrici+1i<i+1 是 不 可 能 的 。 如 果 
7; 宇 r+;+1 和 和 c; 之 c;+41, 我 们 肯定 不 能 有 2 十 l<Q,. Sio (b) 通 过 对 于 Cl Qi 的 图 
表 中 的 行 数 用 归纳 法 证 明 ,a <a;+ ;意味 着 ci<cirl, 且 aj > aif1 和 意味 着 Cj 之 ci+le 
(考虑 行 1 和 “ 撞 下 ”的 序列 。(c) 这 从 定理 D(c) 得 出 。 

28. 这 一 结果 是 A. M.Vershik 和 S.V.Kerov 给 出 的 , 见 Dokl. Akad. Nauk SSSR 
233 (1977) ,1024 一 1028 ,也 可 见 B. 下 . Logan 和 L.A.Shepp,Advances in Math. 26 
(1977),206~222。 [J.Baik,P.Deift 及 K. Johansson,AMM. 12 (1999) ,1119 一 1178 
证 明了 标准 离 差 是 B< ”5] ;而 且 ,长 度 小 于 2Vn + zn 的 概率 趋 近 exp( 一 |] (xz 
-zi)22(z)dz), 其 中 人 (z)=203(z)+zu(z), 且 当 z 一 co 时 x(z) 近 似 于 函数 A， 
(六 )。| 


29. ” ja 是 长 度 为 / 的 递增 子 序列 的 平均 个 数 。( 由 习题 8 和 29, 最 大 的 弟 


增 子 序 列 有 长 度 之 e Vn 或 三 Vnje 的 概率 为 O (1/Vn));[J.D. Dixon, Discrete 
Math. 12 (1975) 139 一 142] 。 
30. [Discrete Math. 2 (1972) ,73 一 94 ;Marc van Leeuwen, Eleetronic J .Combina- 
torics 3,2(1996) 论 文 间 R15 已 经 给 出 了 一 个 简化 了 的 证 明 。] 
31.z,=alu2, 其 中 ao=l,ali=2,a=2a 1+(272 一 2)a i; 2 anz/n! = 
exp(2z+ z*) = (了 tz"/n1)*; 对 于 偶数 的 7 ,zn exp( nlnn 一 本 +V 7 一 六 一 
$76 ， 


5.1.4 小 节 


二 ln 2 | 。 [参见 E. Lucas,Théorie des Nombres (1891) ,217 一 223 。| 


32. 设 ,= | je- qt/ V2z。 则 mo = m1 = 1, 且 如 果 我 们 进行 分 部 积 
分 ,mzi 一 MW; = nmw_-1o 所 以 由 (40),m, = t,o 
33. 真 的 ; 它 是 det, -1 i ) [Mitchell 在 Amer. J. Math 4 (1881) ,341 一 344 中 
j 一 
证 明 , 它 是 现在 称 为 一 个 Schur( 舒 尔 ) 函 数 的 某 个 对 称 昌 数 的 展开 中 的 项 数 。 确 实 ， 
如 果 0< ali<…<aw， 它 是 Sn nn 《ZX1，T2，"… ,Tm) 中 的 项 数 ,其 中 n=a, ~ m, 
n2 三 ap-1 一 (Mm 一 1),…,nm 二 a1 一 1。 这 个 舒 尔 明 数 是 形状 为 (n1,…,n) 的 所 有 
推广 的 图 表 之 和 ,有 在 图 表 中 的 元 素 是 对 于 所 有 的 ; ,作为 zx; 的 乘积 {1,… ,mj} 中 "J 
数 ,而 推广 的 图 表 和 通常 的 图 表 类 似 , 但 在 行 中 允许 有 相同 的 元 素 。 在 这 个 定 入 中 ， 
我 们 允许 参数 np 为 0。 例如 ,S2io(ziy,Zz，Z3) 一 Z1Z2 十 XIx3 十 XI1X2 十 之 1 之 2 之 3 十 
zizaz3+ zlz3+ zz3 + x283, 这 是 由 于 推广 的 图 表 ,3 ，， ,> 了， 所 
致 。 这 样 的 图 表 的 个 数 是 A(1,3,5)/A(1,2,3)=8。 把 算法 I 和 DD 推广 到 推广 的 图 
表 [Pacific J .Math. ，34 (1970),709 一 727] ,我 们 可 以 得 到 著名 的 恒等式 
DSi (zi Tn) Sa (ys Yn) 一 [| [|] ! 


i=1 j=1 1 — ziy; 





DS (ris ra) ST (ys yn) 一 [| [| a + Tiy; ) 


的 组 合 证 明 。 这 里 的 求 和 是 对 于 所 有 可 能 的 形状 入 进行 的 ,而 入 : 表示 转 置 的 形状 。 
这 些 恒 等 式 首 先是 由 了 D.E. Littlewood 发 现 的 ,Proc. London. Math. Soc. (2) 40 
(1936) ,40 一 70 ,定理 V]。 
、 a\/at+l Q 十/ 
注意 :例如 ,由 此 得 出 ,连续 的 二 项 式 系数 的 任何 乘积 |“ ] [| 


,J 


由 (2 (“”， ]…(” “所 整除 ,因为 这 个 比 是 A(a 4,a 1,a sh 一 l,l 
0)/A( ,1;0)。A(C 1,0)=(2 -1)1 …11 01 的 值 有 时 称 为 " 超 阶 乘 ”。 

34 .一 个 钩 的 长 度 也 是 从 钩 的 左下 单元 (z,y) 到 它 的 右上 单元 (z ,yy ) 的 任何 
弯曲 的 通路 的 长 度 。 我 们 证 明 一 个 更 强 的 结果 :如 果 有 一 个 长 度 为 wa+8 的 钓 , 则 
有 一 个 长 度 为 a 的 钩 或 者 长 度 为 8 的 钩 。 考 虑 单元 (zy,y)=(ziyyi)， (zyyaz)，…， 
(zyi)=(z ,yy ), 它 们 紧 靠 这 个 形状 的 下 部 。 如 果 zi1=z, 则 单元 (z。， 
y1) 有 长 度 为 a 的 一 个 钩 ; 和 否则 (zi,y+o) 有 一 个 长 度 为 2 的 钩 。[ 参 考 Japanese 
J .Matb,17 (1940),165 一 184,411 一 423。 中 山 正 是 在 排列 群 的 研究 中 ,最 先 考虑 金 
的 人 ,而 且 他 差不多 接近 于 发 现 定 理 Hj]。 

. 577 ， 
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35. 当 oj 增加 时 ,步骤 G3-G5 的 执行 恰好 使 p 数组 的 hi; 个 元 素 减 1, 因 为 这 个 
算法 沿 着 从 加 到 pin 的 一 条 弯曲 的 通路 进行 。 这 些 步 缀 的 下 一 个 执行 或 者 由 j 的 
一 个 更 大 的 值 开 始 ,或 者 在 高 于 或 等 于 以 前 转弯 处 停止 。 因 此 g 数组 从 左 到 右 和 由 
底 向 上 被 填 满 。 为 了 颠倒 这 个 过 程 ,我 们 从 右 向 左 和 由 项 向 下 进行 : 

H1.[ 初 始 化 ] 对 于 1 二 j 志 nn; 和 1 委 ; 委 01, 置 pj; 一 0。 然 后 置 i 呈 -1 和 j<nj。 

H2.[ 求 非 0 的 单元 ] 如 果 ai >0, 转 到 步骤 H3 继续 。 否 则 如 果 i<nj, 则 i 加 

1 并 重复 这 个 步骤 。 否 则 如 果 j>>1, 则 j 减 1, 置 i 一 1, 并 重复 这 个 步 又 。 
否则 停止 (g 数组 现在 为 0)。 

H3.[ 减 少 g ,为 转弯 做 准备 ]aj 减 1, 并 置 L< ,< 一 in 

H4.[ 下 移 或 左 移 ] 如 果 1 之 和 pi> picrsps; 则 7 加 1 并 返回 H4。 否 则 如 委 

>j, 则 有 减 1 并 返回 H4。 否 则 返回 H2。| 

对 于 一 个 给 定 的 7 头 一 个 转弯 的 通路 通过 增加 pi 结束 。 因 为 p-1j 夺 … 人 
Pnij， 意 昧 省 pj>0。 对 于 列 j 的 每 个 随 继 的 通路 停留 在 以 前 的 通路 之 下 或 等 于 以 
前 的 通路 ,所 以 它 也 在 Pui 处 结束 。 在 这 途中 遇 到 的 不 相等 表示 这 个 算法 对 其 它 的 
进行 反 序 [J. Combinatorial Theory A21 (1976) ,216 一 221] 。 

的 结果 。(b) 如 果 a1,… ,as 是 任何 正 整 数 , 我 们 可 以 通过 对 用 归纳 法 证 明 


0 ) = 


, Jlareas + O(m* !) 


由 习题 5.1.1-15, 对 于 固定 的 n,n 分 划 成 至 多 个 部 分 的 个 数 因此 是 [ ”，]/n! 


+ O(m”“)。 这 也 是 m= pi1+… + p; 分 划 成 不 同 部 分 pi1>>… > p>0 的 渐 近 个 
数 (参见 习题 5.1.1-16)。 所 以 当 有 一 个 给 定 的 个 单元 形状 的 NN 个 图 表 时 , 题 倒 


的 平面 分 划 的 个 数 渐 近 地 是 N | ”| j/n! + O(m”?)。 由 部 分 (a), 这 也 是 


| JIA +O(m"™*), [Studies in Applied Math. 50 (1971),167~ 188,259~ 
jy 


279 。] 

37. 在 一 个 矩形 中 的 平面 分 划 等 价 于 颠倒 的 平面 分 划 , 所 以 钩 的 长 度 告诉 我 们 
在 一 个 + xc 的 矩形 中 的 生成 函数 1/IB-1IL-1(1 一 xz … )。 设 定 -,c 一 co 产生 滁 亮 
的 答案 1/(1 一 2)(1 一 z*)*(1 一 xz).…。[MacMahon 原来 在 Philosophical Transac- 
tions A211 (1912) ,75 一 110,345 一 373 中 的 推导 ,极其 复杂 。 头 一 个 相当 简单 的 证 
明 是 由 Leonard Carlitz 发 现 的 ,Acta Arithmetica 13 (1967) ,29 一 47 。 

38.(a) 当 有 =1=1 时 ,概率 是 1/n ;否则 对 有 +7 用 归纳 法 , 它 是 

nP(I\ {iol ,J) + nP(IsI\ jol) (dis + dy)/(ndiodi sb duo do,,) 
nd, ; di s + dio 
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”378 ， 


5.1.4 人 小节 





(b) 对 所 有 I 和 J 求 和 给 出 
ni(l + dii): (1 + dil ve)(l + dal)(l + dals-1)) 

容易 看 出 , 它 等 于 f(T\ {a,b1)/f(T)。 

(c) 对 所 有 的 角 求 和 产生 1 ,因为 每 一 条 通路 都 在 一 个 角落 处 结束 。 因 此 之 矿工 
\ |(a,5)|)= f(T), 而 且 通 过 对 ”用 归纳 法 证 明了 定理 H。 而 且 , 如 果 我 们 把 > 
放 在 随机 通路 的 角落 单元 处 并 在 剩 下 的 -1 个 单元 上 重复 这 一 过 程 , 我 们 以 117 
(TT) 的 概率 得 到 每 个 图 表 。[Advances in Math. 31 (1979) ,104 一 109。 

39. (a) Q11,…, Qi, 将 是 51…5; , 即 原 来 的 排列 Pi1… Pi; 的 反 序 表 。( 参 见 5. 
1.1 节 )。 

(b) Qi1i ，"""， Q ,1 是 习题 SS.1.1-7 的 负 的 反 序 表 ( 一 Ci1)……( 人 一 C，) 。 

(c) 这 个 条 件 显然 为 步骤 P3 所 保持 。 


四 人 320) 3 人 6 oj 这 个 例子 
明 ,如 果 不 注 视 数组 P 我 们 不 能 向 后 运行 步骤 P3。 
(©) 四 四 加 四 中 加 








(f) 下 列 算法 是 正确 的 ,但 并 不 那么 明显 。 
Q1.[ 对 (i,j;) 进 行 循环 ] 以 字典 次 序 对 数组 的 所 有 单元 (i,;) 实 施 步 缀 Q2 和 
Q3。( 即 是 在 每 行 中 从 顶 向 下 ,和 从 左 到 右 ) ;然后 停止 。 
Q2. [调整 Q] 通过 下 列 规则 求 出 “ 头 一 个 候选 者 "(r,s)。 然 后 对 于 j 夺 有 &<s， 
置 Qi(p31) Qe-1o 
Q3.[ 在 (i,j) 处 拆 开 P] 置 KP,,。 然 后 执行 下 列 操作 直到 (r,s)= (i,j) 为 
止 ;如果 P,， ,>P -0D), 置 P < 一 PN 和 re 一 1 否则 置 P,P,(,-1) 
和 s<-s 一 1, 最 后 置 P; < 一 KK。 | 
在 步骤 Q2 中 , 当 ;之 7; 以 及 Q; 三 0 且 r=i- Q; 时 ,单元 (>,s) 是 一 个 候选 者 。 
设 TT 是 提示 的 有 向 树 。 算 法 Q 的 基本 不 变量 之 一 是 每 当 (>,s) 是 在 步骤 Q2 中 的 
一 个 候选 者 时 ,在 T 中 将 有 从 (r,s) 到 (i ,7) 的 一 条 通路 。 该 通路 的 颠倒 可 以 通过 
字母 D.Q 和 R 的 一 个 序列 来 进行 编码 。 其 意义 是 ,我 们 在 (i,j) 处 开始 ,然后 回 下 
(D) 或 者 向 右 (R) 或 者 停止 (Q)。 头 一 个 候选 者 是 在 字母 表 的 次 序 下 字典 次 序 的 头 
一 个 ;直观 地 说 , 它 就 是 具有 “最 左 和 最 下 的 "通路 的 候选 者 。 
例如 ,在 部 分 (e) 的 例子 中 当 (i,j)= (1,1) 时 的 候选 者 是 (3,1),(4,2),(2,3)， 
(2, 4) 和 (1,6)。 它 们 分 别 的 编码 是 DDQ, DDDRQ, RDRQ, RPDRRQ, 以 及 
RRRRRQ; 所 以 头 一 个 是 (4,2)。 
。 .79 。 
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算法 P 是 在 Funkts， Analiz i Ego Priloz，26 ,3(1992) ,80 一 82 中 不 加 证 明 地 指 
出 的 一 个 构造 的 稍微 简化 了 的 版 本 。 其 正确 性 证 明 是 不 平 几 的 ;J].-C. Novelli,1. 
Pak 和 A.V.Stoyanovskii 在 Disc. Math. and Theoretieal Comp. Sci. 1 (1997),53~67 
上 给 出 了 一 个 证 明 。 

40. H. Rost ,Zeitschrift fur Wahrscheinlich-keitstheorie und verwandte Gebiete ,58 
(1981) ,41 一 53。 

41.( 由 R.W.Floyd 给 出 的 解 ) 一 个 删 去 -插入 操作 实质 上 仅仅 移动 a;。 在 这 样 
的 操作 的 一 个 序列 中 ,未 被 移动 的 元 素 保 持 它们 的 相对 次 序 。 因 此 如 有 果 可 以 通过 
个 删 去 -插入 来 对 x 排序 , 则 它 有 长 度 为 -和 的 一 个 递增 的 子 序 列 ;而 且 反 之 尔 
然 。 因 此 ,dis(x) = n 一 (x 的 最 长 的 递增 子 序列 的 长 度 )= n+ (定理 A 中 行 1 的 长 
度 ) 。 

M.L.Fredman 已 经 证 明 为 计算 这 个 长 度 所 需要 的 极 小 比较 次 数 是 mlgn- 7 
lg lg n + O(n)[Discrete Math. 11 (1975) ,29 一 35] 。 

42 .构造 一 个 多 重 图 ,对 于 0 委 & 和 7, 它 有 顶点 10R 1 1LR，…，721 ，7R (7 十 
1) 411 和 边 如 一 (&+1)7 ;还 包括 边 0R 一 7R ,TL 一 lL ,1R 一 21 ,2R 一 4L,4R 一 31 ,5k 一 
3 ,3R 一 6R ;61 一 81 ,它们 定义 了 裂 开 炽 体 的 “ 粘 合 "。 精 确 地 说 ,两 个 边 接触 每 个 项 
点 ,因此 连接 的 成 分 是 循环 的 :(0R1 71 6R 3R 41 2g 3L Sr 61 BL 7rR)(1lr 2L)(4R 
5, )。 任 何 触发 操作 都 使 循环 数 改 变 -1,0 或 +1。 因 此 我 们 至 少 需要 五 个 触发 来 
达到 八 个 循环 (0g1,) (1R82，)…(7R8)，)。[J.Kececioglu 和 DD. Sankotff,Algorithmica 
13 (199$) ,180 一 210 。 | 

头 一 步 必 须 打 破 粘 合 61 一 81 ,因为 在 线性 安排 中 当 我 们 打破 有 相同 的 目 左 到 
右 的 两 个 粘 合 时 ,我 们 就 得 不 到 新 循环 。 在 一 个 触发 之 后 ,这 保持 五 个 可 能 性 , 即 
8 g688 es es ed ef, gsg1g2g841858386, BI E12828683 83 84, BI7E18284858683 以 及 
go6ps es oR gs gi gj; 短 有 四 个 触发 就 足以 把 除了 第 二 个 之 外 的 所 有 安排 排序 。 

顺便 说 ,g1…g; 有 2 7! =645120 个 不 同 的 可 能 的 安排 ,从 吸烟 的 次 序 来 说 其 
中 有 179904 其 距离 是 人 5 的 。 

[S. Hannenhalli 和 P. Pevzher,JACM 46 (1999) ,1 一 27 给 出 了 通过 站 倒 顺序 来 
找 出 对 任何 带 符 号 的 排列 进行 排序 最 好 方法 的 一 个 有 效 算 法 , 而且, 由 Kaplam.、 
Shamir 和 Tarjin,SICOMP 29 (1999) ,880 一 892 作 了 改进 以 在 O(n“) 的 时 间 内 运 
行 ]。 

43. 通 过 带 符号 的 排列 7124536 来 表示 像 gg1g2g4gsg386 这 样 一 个 安排 。 如 
果 有 一 个 负 的 元 素 ,比如 说 不 存在 而 不 是 上 -1 一 个 触发 将 建立 2 循环 ((&R 一 
1) gk1 )。 类 似 地 ,如 果 & 有 存在 而 不 是 +1, 一 个 触发 建立 (kkR(k+1)1)。 而 且 如 果 
所 有 这 特殊 类 型 的 触发 删 去 所 有 负 的 元 素 , 则 单个 触发 就 建立 两 个 2 循环。 如 来 不 
出 现 有 负 的 元 素 而 且 这 个 排列 未 排序 , 某 个 触发 将 保持 循环 的 个 数 。 因 此 如 采 给 定 
的 排列 有 一 个 负 元 素 ,我 们 可 以 在 志 n 个 触发 中 排序 ,否则 则 在 三 n +1 个 触发 中 排 
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序 。 

当 n 是 偶数 时 ,排列 n(n 一 1)…1 要 求 n+1 个 触发 ,因为 在 头 一 个 触发 之 后 
它 有 一 个 循环 。 当 n >3 是 奇数 时 ,通过 类 似 的 论证 排列 213n(n 一 1)…4 要求 n+ 
1 个 触发 。 

44. 设 cs 是 在 前 面 答 案 中 的 多 重 图 中 长 度 为 2& 的 循环 的 个 数 。 可 以 找 出 am 
的 平均 值 的 上 限 如 下 :可 能 的 2& 循环 的 总 数 是 2*(n +1)*/(2k), 因 为 我 们 可 以 以 
(n + 1) 半 种 方法 从 {0 Ae 一 (n 1)1 | 中 选择 k 个 不 同 边 的 序列 ,并 且 以 2 
种 方法 来 对 它们 定 方 向 ; 这 计算 每 个 循环 2& 次 ,包括 像 (1R272R3L ) 或 
(1R21312R3R41 ) 或 (1R216R71413R2R31615k) 这 样 不 可 能 情况 。 当 及 n 时 ,每 个 
可 能 的 2& 循环 恰好 出 现在 2” “(nn 一)! 个 带 符号 的 排列 中 。 例 如 ,考虑 =5,n 
=9 的 情况 以 及 循环 (0p1j918r7R811R21514g)。 这 个 循环 在 多 重 图 中 出 现 当 且 仪 
当 带 符号 的 排列 以 4 开始 ,并 且 包 含 子 串 9187 和 25 或 它们 的 颠倒 ;通过 找 出 11,2， 
3,6| 的 所 有 带 符号 的 排列 ,并 且 以 9187 来 代替 1, 以 25 来 代替 2, 我 们 得 到 所 有 的 


解 。 因 此 Ec, 夺 1/(2k)2*(n+1)*2"7 “(nmEk)! /2"n! = 


由 此 得 出 ,Ec = >?_ Eck+Ec,11<< 晶 ,+1。 由 于 n+1-c 是 触发 数 的 下 限 , 我 们 
需要 宇 n+1 一 Ecn 一 它们 中 的 日 ,。 

[这 个 证 明 使 用 了 V. Bafna 和 P. Pevzner,SICOMP 25 (1996) ,272 一 289 的 思 
想 。 他 们 研究 了 通过 颠倒 顺序 来 对 不 带 符 号 的 排列 排序 的 更 困难 的 问题 。 在 该 问 
题 中 ,证 实 了 可 以 写成 为 不 相交 的 循环 的 乘积 (123)(345)(567)… ,而 且 依 赖 于 ?是 
偶数 还 是 奇数 ,而 以 (n 一 1 nn) 或 (n 一 2 n 一 1 n) 结 尾 , 是 最 难 排序 的 。] 


S.2 


1. 是 ;i 和 7 可 以 以 任意 顺序 跑 遍 1 二;<i 志 NN 的 值 的 集合 ,可 能 并 行 和 /或 作为 
记录 被 读 人 。 

2. 在 这 一 章 开 始 时 给 出 的 定义 的 意义 下 ,这 个 排序 是 稳定 的 ,因为 这 个 算法 实 
质 上 是 对 不 同 键 码 对 (Ki,1),(K,,2),…,(Kw ,六 ) 按 字典 顺序 进行 排序 的 。( 如果 
我 们 把 每 个 键 码 想 像 作 通过 它 在 文件 中 的 位 置 向 右边 扩充 ,不 出 现 相 等 的 键 码 , 因 
而 这 个 排序 是 稳定 的 )。 

3. 它 能 排序 ,但 不 是 以 一 种 稳定 的 方式 ;如 果 K;= K; 且 ;<i, 则 R; 将 在 排 好 
了 的 顺序 中 出 现在 R,; 之 后 ,这 个 变化 也 将 使 程序 C 更 慢 地 运行 。 


4.ENT1 N 1 
ED COUNT , 1 N 
LDA INPUT,1 N 
STA OUTPUT + 1 ,2 N 
DEC1 N 
Tie x 一 4 N | 
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习题 答案 





5. 运 行 时 间 减 少 A+1-- NN 一 B 个 单位 ,而 且 这 在 绝 大 多 数 情况 下 是 个 改进 。 

6.u=0,v=96 

在 D1 之 后 ,COUNT = 0 

在 D2 之 后 ,COUNT = 2 

在 D4 之 后 ,COUNT = 2 12 14 15 16 

在 D5 期 间 ,COUNT = 2 9 12 15 16 j=8 

OUTPUT = sn. ooe oee. 16 oe. AA aas eee 5L 6A 6T 6I 70 TN sos eee 

在 D5 之 后 ,OUTPUT=0C 00 1N 1G 2R 4A 5T 5U 5L 6A 6T 6I 
70 7N 8S 9 

7. 是 ,注意 在 步骤 D6 中 COUNT[ K; ] 被 减 值 ,而 且 7 减 值 。 

8. 它 能 排序 ,但 不 是 以 一 种 稳定 的 方式 (参见 习题 7)。 

9. 设 M=zmo-zx; 假 定 |x| ,|z| 能 装 入 两 个 字 节 中 。LOC(Ri) =INPUT + j;LOC 
(COUNT[ j ])#LOUNT + j; LOC( S; ) 二 OUTPUT + j ;rl1 寺 i;rl2 寺 j ;rl3 寺 1- v 或 r13 三 


WV Do 
UI Un OO DO 


0 
3 3 2 1 1 
9 
8 


A UO PP OO 


M EQU V—U 
KEY EQU 0:2 (在 字 节 3:5 中 的 随从 信息 ) 
1H ENN3 M 1 DT1. 洲 区 COUNT 
STZ COUNT + V ,3 M+1 COUNT[vw—kj<-0 
INC3 1 M+l1 
J3NP x 一 2 M+1 Ui 
2H ENT2 N 1 D2. 对 j 进行 循环 
3H LD3 INPUT,2(KEY) N ”D3.COUNTI Kj 增值 
LDA COUNT ,3 N 
INCA 1 N 
STA COUNT , 3 N 
DEC2 1 N 
J2P 3B N NN 之 j >0 
ENN3 M 一 1 1 D4. 票 计 
LDA COUNT +U 1 rA<—COUNT[i—1] 
4H ADD COUNT + V ,3 M COUNT[ i — 1|] + COUNT| :| 
STA COUNT + V,3 M 一 COUNT| 7 | 
INC3 1 M 
J3NP 4B M ui<w 
5H ENT2 N 1 D5. 对 j 进行 循环 
6H LD3 INPUT ,2(KEY) N .D6. 竹 出 民 
LD1 COUNT , 3 N i<-COUNT[ K;] 
LDA INPUT,2 N rA<R; 
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STAR OUTPUT ,1 N Si<rA 

DEC1 1 N 

ST1 COUNT , 3 N COUNTLK,}<i-l 
DEC2 1 N 

J2P 6B N N 二 1} >0 | 


运行 时 间 是 (10M +22N + 10)wu。 

10. 为 了 避免 使 用 N 个 额外 “标志 ”位 [ 见 1.3.3 小 节 和 Cybernetics 1(1965)， 
95] ,并 保持 运行 时 间 实 质 上 同 N 成 比例 ,我 们 可 以 使 用 下 列 以 排列 的 循环 结构 为 
基础 的 算法 : 

P1.[ 对 i 进行 循环 ] 对 于 1 志 i 过 NN 做 步骤 P2; 然 后 结束 这 个 算法 。 

P2.[p(i)=i 吗 ?] 如 果 p(i)* i, 则 进行 步骤 P3 到 P5。 

P3.[ 开 始 循 环 ] 置 上 Ri < 

P4.[ 修 正 R;] 置 k 一 p(j),R; 一 Ri,p(j) 一 j,j<k。 如 果 p(j) 太 i 则 重复 本 

步骤 。 
PS.[ 结 束 循环 ] 置 Ri,pO)<7T。| 


这 个 算法 改变 p(i) ,因为 排序 的 应 用 允许 我 们 假定 p (i) 存 储 在 内 存 中 。 为 一 
方面 ,存在 像 矩 阵 转 置 这 样 一 些 应 用 ,其 中 p(i) 是 有 待 计算 (为 了 节省 内 存 空间 而 
不 造 表 ) 的 i 的 函数 。 在 这 样 一 种 情况 下 ,我们 可 以 使 用 下 列 的 方法 ,对 于 11 入 
实施 步骤 Bl 到 B3: 

Bl. 置 <p(i)。 

B2. 如 果 有 >i, 则 置 & 一 p(k) 并 重复 这 个 步骤 。 

B3. 如 果 & 达 i, 则 什么 也 不 做 ;但 如 果 有 = i( 这 意味 着 i 是 在 它 的 循环 中 最 小 

的 ) 则 我 们 把 包含 i 的 循环 排列 如 下 : 置 :一 R;, 然 后 当 p(k)*i 时 ,重复 地 
置 Re 一 R,(k), 以 及 k<-p(k); 最 后 Rto。 | 


这 个 算法 类 似 于 本. Boothroyd[Comp.J. 10 (1967) ,310] 的 过 程 ,但 它 要 求 较 少 
的 数据 移动 ;(I.D.G.Macleod)[Australian Comp.J.2 (1970),16 一 19。] 已 经 提出 某 
些 改 进 。 对 于 随机 排列 ,习题 1.3.3-14 中 的 分 析 表 明 ,步骤 B2 平均 要 实施 (N+1) 
HA-N 步 。 请 见习 题 1.3.3-12 的 答案 中 的 参考 文献 。 例 如 ,如 果 习 题 4 中 的 重新 
安排 是 通过 OUTPUT = INPUT 来 完成 的 话 , 则 类 似 的 算法 可 被 设计 成 以 (Ri ， 及 N) 
来 代替 (R40),… ,Ry(N))o 

11. 命 rll 寺 i;rl2 三 ) ;rl3 寺 kk;rX 三 1。 


1H ENT1 N 1 P1. 对 i 进行 往 环 
2H CMP1 P ,1 N P2. p (i) =i 始 ? 

JE 8F N 如 果 p(i) = i 则 转移 
3H LDX INPUT,1 A-8B P3. 开 女人 短 环 , t<R， 
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ENT2 0,1 A-B ji 
4H LD3 P ,2 N-A Pa {BIE Rs. Re yt)) 
LDA INPUT,3 N-A 
STA INPUT , 2 N-A RR, 
ST2 9 N-A PAD 
ENT2 he N-A 7 
CMP1 和 N-A 
JNE 4B N-A 如 果 p(j) i 则 重复 
5H STX INPUT,2 A-B 5. 结束 循环 。 民 < 一 
ST p,2 A-B A a 
8H DEC1 | N 
J1B 2B N N37] | 


运行 时 间 是 (17N -5A 一 7B+1)w, 这 里 A 是 排列 p(1)…p(N) 中 的 循环 个 数 , 量 
日 是 不 动 点 (1- 循 环 ) 的 个 数 。 由 等 式 1.3.3-(21) 和 1.3.3-(28,) 对 于 Nz2 ,我 们 有 
A=(min 1,ave Hn,max N,dev Hn — HX’);B = (min 0,ave 1 ,max N ,dev 1)。 

12. 明 显 的 方法 是 跑 遍 这 个 表 列 ,并 以 数 & 代 蔡 第 & 个 元 素 的 链接 ,然后 在 第 二 
遍 扫 描 中 重新 安排 诸 元 素 。 下 列 更 直接 的 方法 是 由 M.D.MacLaren 给 出 的 ,如 果 诸 
记录 不 太 长 , 它 更 短 和 更 快 。 (为 方便 起 见 假定 对 于 1 夺 P<N,0 二 LINK(P) 达 NN, 这 
里 A 寺 0)。 


M1, [初始化] 置 P<-HEAD,k<1。 

M2.[ 完 成 了 ?] 如 果 P=A( 或 者 等 价 地 ,如果 &= N+l), 算 法 结束 。 

M3.[ 确 保 P 汪 k] 如 果 P<k, 置 P<-LINK(P), 并 重复 这 一 步骤 。 

M4.| 交 换 ] 交换 R; 和 RL[LP]( 假 定 LINK(k) 和 LINK(P) 在 这 个 过 程 中 也 交 

换 ) ,然后 置 Q<-LINK(&) ,LINK(R )<P,P<Q,e<R+1, 并 返回 步骤 M2。 

MacLaren 方法 有 效 的 一 个 证 明 , 可 以 以 下 列 性 质 的 归纳 性 验证 为 基础 ,这 个 性 
质 在 步骤 M2 开始 时 成 立 : 在 序列 P,LINK(P),LINK(LINK(P)),…, 人 中 之 k 的 项 是 
CC2， ”CN+L1- ;这 里 Ri 委 … 和 Re -1 全 RR 全 … 全 R。 是 这 些 记 录 所 应 有 的 最 
后 顺序 。 而 且 对 于 1 过; < 有 有 LINK(j ) 之 j ,使 得 LINK(j)= 人 意味 着 j) 之 k。 

分 析 MacLaren 算法 是 十 分 有 趣 的 ; 它 的 突出 性 质 之 一 是 它 可 反问 运行 , 即 从 
LINK(1),… ,LINK(N ) 最 后 的 值 重新 构造 链接 的 原来 集合 。 满 足 j 三 LINK(j ) 三 NN 的 
N! 种 可 能 的 输出 配置 的 每 一 种 ,恰巧 对 应 于 N1 种 可 能 的 输入 配置 之 一 。 如 果 A 
是 步骤 M3 中 P<-KINK(P) 的 次 数 , 则 N - A 是 在 这 算法 结束 处 使 得 LINK(;)=j 的 7 
的 个 数 ;这 种 情况 当 且 仅 当 7 是 它 循环 中 最 大 者 时 才 出 现 ;因此 N -A 是 排列 中 的 
循环 个 数 , 而 且 A=(min0,ave N- Hv,max N-1)。 

参考 文献 :M.D. MacLaren,JACM 13 (1966),404~411;D. Gries 和 J].F. Prins, 
Science of Computer Programming 8 (1987),139~145。 
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5.2.1 小 节 





13.DS . 置 ”< 入。 
D6 .如 果 ->=0, 则 停止 。 否 则 如 果 COUNT[ K,]<r, 则 置 x- 一 x -1 并 重复 这 
一 步骤 ;如 果 COUNT[ K,]=7, 则 COUNT[ K,] 和 x 都 减 1, 并 重复 这 一 步 
又 。 否 则 置 R<R,,j<-COUNT[ K,] ,COUNT[ K,]<—j 一 1。 
D7 置 SR;,k<COUNT[ K;] ,COUNTL K; |]<k-1,R<R,R<S,j<-k。 然 
后 如 果 j 丰 7, 则 重复 这 一 步骤 ;如 果 j =r, 则 置 R, 一 R,r<r 一 1, 并 转 
回 到 D'6。 i 
为 了 证 明 这 个 过 程 是 正确 的 ,注意 在 步骤 D'6 开始 处 ,所 有 满足 ; >r 的 不 在 它们 最 
后 的 安放 位 置 处 的 记录 尺 ; 都 必须 左 移 ; 当 >=0 时 ,不 可 能 有 任何 这 样 的 记录 ,因为 
某 个 东西 必须 右 移 。 这 个 算法 是 床 亮 的 ,但 对 于 相等 的 键 码 不 稳定 ; 它 同 生 理 $.1. 
2B 中 的 Foata 构造 密切 相关 。 


S.2.1 小 用 


1. 是 。 相 等 的 元 素 决 不 彼此 交错 地 移动 。 

2. 是 。 但 当 出 现 相 等 的 元 素 时 ,运行 时 间 将 较 慢 ,而 排序 将 不 稳定 。 

3. 下 列 8 行 被 猜测 为 最 短 的 MIX 排序 程序 ,尽管 就 速度 来 说 , 它 是 不 值得 推荐 
的 。 我 们 假定 数 出 现在 位 置 1,…,N 上 ( 即 ,INPUT EQU 0; 和 否则 需要 多 一 行 代码 )。 


2H LDA 0,1 B 
CMPA 1,1 B 
JLE 1F B 
MOVE ， A 
STA 0,1 A 
START ENT1 A+t+l 
1H DEC1 1 B+1 
J1P 2B B+1 | 


注意 :为 了 估计 这 个 程序 的 运行 时 间 ,注意 A 是 反 序 的 个 数 。 量 B 是 反 序 表 的 
相当 简单 的 函数 ,而且 (假定 在 随机 顺序 下 的 不 同 输入 ) 它 的 生成 函数 是 
zl + xz)(1l+ z+ zl!) x 
(1 十 23 + 之 3+2 十 z3+2+1),..(1 十 wh -1 十 y2N-3 十 ,十 zNAN-12JANI 
B 的 平均 值 是 N 一 1+ Ai1(k 一 1)(2k 一 1)/6=(N 一 1)(4N*+ N+36)/36; 因 此 这 


个 程序 的 平均 运行 时 间 大 约 是 也 N3u。 

4. 在 习题 5.1.1-7 的 意义 下 ,考虑 给 定 的 输入 排列 的 反 序 表 Bj… BN。A 比 等 
于 ;一 1 的 B; 的 个 数 少 1, 而 B 是 诸 B; 之 和 。 因 此 当 输 入 的 排列 是 N…21 时 ,B- 
A 和 B 都 取 极 大 值 ; 当 输 入 1 2…N 时 ,两 者 取 极 小 值 ,因此 当 A=0,B=0 时 可 达 


到 时 间 的 下 限 , 即 (10N -9)u; 当 A=N-1,B= [时 出 现 极 大 值 ,这 就 是 
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习题 答案 


(4.5N*+2.5N — 6)u。 

5. 生 成 函数 是 = ? 乘 以 9B8 -3A 的 生成 函数 。 通 过 像 在 上 题 中 那样 考虑 反 
序 表 ,并 回想 起 反 序 表 中 各 项 是 彼此 独立 的 ,因此 所 求 的 生成 函数 是 xz 
Tj<Nn((1+ 2 ++ zY zz)17)。 方 差 成 为 2.25N +3.37SN 一 
32.625N + 36H» 一 9 他) 。 

6. 把 输入 区 域 当 作 一 个 循环 表 ,而 且 位 置 N 同位 置 1 相 邻 。 根 据 上 一 次 插 和 人 
的 元 素 是 落 到 已 排序 元 素 中 心 的 右边 还 是 左边 ,而 分 别 地 从 当前 的 未 排序 元 素 段 的 
左边 或 右边 来 取 新 的 待 插入 的 元 素 。 过 后 ,通常 将 需要 “转动 "这 个 区 域 ,对 于 茶 个 
固定 的 ,把 每 个 记录 顺 着 这 个 循环 移动 上 个 位 置 ; 这 可 像 在 习题 1.3.3-34 中 一 样 
有 效 地 完成 。 

7. |a; 一 j | 的 平均 值 是 


Lilt 2 lt tl) = ("1)) 


2 2 
对 ) 求 和 给 出 


x (3 rs ))- 3 


顺便 提 及 ,所 述 和 的 方差 可 证 明 等 于 [n>>1](2n“+7)(n +1)/45。 
8. 否 ;例如 ,考虑 键 码 21111111111。 

9. 对 于 表 3,A=3+0+2+1=6,B=3+1+4+21=29; 在 表 4 中 ,4A=4+2+2 
+0=8,B=4+3+8+10=25; 因 此 程序 D 的 运行 时 间 分 别 为 786x 和 734u。 尺 管 
移动 的 次 数 已 经 从 41 减少 到 25, 但 运行 的 时 间 不 能 同 程序 S 相 匹 敌 ,因为 当 = 
16 时 ,有 四 次 扫描 的 短 记 时 间 是 浪费 掉 的 。 当 对 16 个 项 目 排序 时 仪 用 两 次 扫描 效 
果 更 好 ;一 个 两 次 扫描 的 程序 D 大 约 在 N=13 时 开始 胜 过 程序 S, 尽管 在 短 时 间 内 
它们 是 几乎 等 同 的 (而 对 这 样 小 的 N ,程序 长 度 也 许 是 重要 的 )。 

10. 把 “INC1 INPUT;ST1 0F(0:2)" 插 入 行 07 和 行 08 之 间 ,并 把 行 10 一 17 改 成 


OH CMPA INPUT + N~—H,1 NT-S 
JGE 7F NT-S 
3H ENT2 N—H,1 NT-S-C 
4H LDX INPUT,2 B 
5H STX INPUT + H,2 B 
DEC2 0,4 B 
J2NP 6F B 
CMPA INPUT , 2 B-A 
JL 4B B-A 
6H STA INPUT + H,2 NT-S-C | 


这 里 纯 增 了 4 条 指令 ,但 却 节 省 了 3(C 一 丁 ) 个 时 间 单 位 ,这 里 C 是 K; 之 Kj;- ;的 次 
数 。 在 表 3 和 表 4 中 ,节省 的 时 间 分 别 近 似 于 87 和 88; 经 验 表明 ,CI/(NT -SS) 的 值 
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当 hi1/hs 守 2 时 大 约 是 0.4, 而 当 h,41/h, 守 3 时 大 约 是 0.3, 所 以 这 项 改进 是 值得 
的 。( 为 一 方面 ,对 于 程序 S 作 类 似 的 改变 是 不 合 要 求 的 ,因为 在 该 情况 下 的 节省 仅 
仅 同 log 成 比例 ,除非 已 知 输入 是 相当 好 地 排 了 序 的 )。 

11. 


12. 把 t” 变 成 为 总 是 使 反 序数 改变 + 1, 依 赖 于 这 个 变动 是 在 对 角 线 上 面 还 
是 下 面 而 异 。 

13. 把 权 |i-j| 放 到 从 (i,; 一 1) 到 (i,j) 的 线段 上 。 

14.(a) 在 As,; 的 和 式 中 交换 i 和 ;, 并 把 这 两 个 和 式 加 起 来 。(6) 取 这 个 结果 的 
一 半 ,我 们 看 到 

,i+jV/2noi-j 2i + kV/2n—-2i-k 

A = DD 0-0 "| nj ')= Dl ; )( 1 
因此 2A,,z” = >) ,so0 kzta’*/ (1 — 4z) 一 z/(1 一 4z) ,其 中 Q 一 (1 -VIi-4z)/2z。 

以 上 证 明 是 由 Leonard Carlitz 回 作 者 提出 的 。 另 一 个 证 明 可 以 根据 水 平和 垂 
直 权 之 间 的 相互 作用 进行 (参见 习题 13) ;利用 习题 5.2.2-16 的 答案 中 的 恒等式 ,并 
令 f(k)=&, 可 得 男 一 个 证 明 ; 但 是 却 未 发 现 有 关公 式 A; =|n/212” “的 简单 的 组 
合 推导 。 

15. 对 于 n>0 

gn(Z) = zgn1(2); hi(z) = gn(z) + x "gn(z) 


gn(Z) = PAGE h,(z) = Dz) ha) 
命 G(w,z)= ,gn(z)w" ,我 们 发 现 wzG(w,z)G(wz,z)=G(w,z) 一 1]。 从 这 
个 表示 我 们 可 以 导出 ,如 果 二 = V1i-4w=1-2w--2w: 一 4w; 一 …, 则 我 们 有 
Gl(w,1)=(1-2)/(2w);G (ww,1)=1/(wi) (1-2)/(2w’);G (w,1)= 1/(27°) 
-1/(22) ;GA(w,1)=2/(w) -2 wt) + (tw ;GG (w,1)=2/1 -1/t3; 


G(w,1)=1/t5 一 (1 一 2w)/t*+10w*/t*。 此 处 下 边 的 撤 号 表示 相对 于 头 一 个 参数 
的 微 商 ,而 上 边 的 撤 号 表示 相对 于 第 二 参数 的 微 商 。 类 似 地 ,由 公式 
wzG(wz,z) + G(w,z))H(w,z) = H(w,z)-1 
我 们 导出 
H(w,1)= w/t, H(w,1) =- w/t? - w/t + 2w/t + 
(2w” + 20w 3)/17 

这 里 概述 的 公式 的 处 理 原 来 是 用 手 算 的 ,但 今天 它 可 以 很 容易 地 由 计算 机 来 

算 。 原 则 上 ,所 有 分 布 阶 段 都 可 以 以 这 样 的 方式 得 到 。 
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生成 男 数 g, (xz) 也 表示 了 闷 z 广 部 路 算 长 度 这 里 求 和 对 具有 n+ 1 个 节点 的 所 有 
树 进 行 ;参见 习题 2.3.4.5-5。 说 明 这 样 一 点 是 有 趣 的 , 即 G(w ,zz) 等 于 F(— wz, 
z)/F( 一 ww,z) 其 中 下 (z,g)= 吕 ,woz"9” /IP-1(1 一下); 在 下 (z,g) 中 9"z" 的 系数 
是 把 m= pi1+… + ps 如 下 分 划 的 个 数 ,即使 得 对 于 1j<n,p; 宇 pj;11+2, 且 pp, 
>0( 参 见习 题 5.1.1-16)。 
16. 当 hh=2 时 ,显然 地 对 于 通过 格子 图 式 右上 角 的 通路 出 现 极 大 值 , 即 是 
(2 十 | 
2 
对 于 一 般 的 hh, 对 应 的 数 是 
9 十 1 


ro 的 fen 
这 里 的 g 和 7 在 定理 蕊 中 定义 :因为 具有 ait+i=l+aq(h-i)+(r-i)li<r] 对 


于 1 过 i 过 h 和 ;之 0 的 排列 ,使 yj 对 排 好 序 的 子 序列 中 的 每 一 对 之 间 的 反 序 个 数 
极 大 化 。 如 果 我 们 在 (6) 中 以 了 代替 f, 便 得 到 极 大 的 移动 次 数 。 
17. 有 |[”。 ] 个 反 序 的 11,2,，… ,27 | 的 惟一 的 二 有 序 排列 是 nt+l1ln+22... 


2n n。 佣 归 地 利用 这 一 思想 ,我 们 得 到 通过 对 序列 (2 一 1)*.…1*0R 的 每 个 元 素 加 1 
来 定义 的 排列 ,这 里 R 表示 把 一 个 整数 写成 为 一 个 上 位 二 进 数 的 操作 ,然后 逆转 这 
些 数字 从 左 到 右 的 顺序 1 

18. 取 出 一 个 公共 因子 并 命 h, =4N/r; 当 ho =1 时 我 们 要 把 避 :_ih 训 /hh,_| 极 小 化 。 
微 商 之 得 到 hs =4hs_1h,+41, 而 且 我 们 求 得 (2: 一 1)lg hi1=2111 一 2(z+1)+lg h,。 所 述 的 
估计 的 极 小 值 成 为 (1 2- 人 Oz DQ -DNIt2 -V2 DJ21+ -D2 -DD 当 7>ce 时 它 
迅速 地 趋 于 N VrN/2。 

当 N=1000 时 “最 优 的 ”h 的 典型 例子 是 (也 看 表 6): 

/AS7.64， 站 6.13， ho=1; 
hs135.30, /7 人 22.05， 户 ; <:4.45， ho=1; 
疡 4 284.46， /3A267.23， h,16.34, 疡 14.03， ho=1; 
hoX9164.74, hgeX12294.05, hy 守 7119.55, hesS2708.95,， 835.50， 
haS232.00， h3 守 61.13,， hs, 守 15.69， hl 完 3.97， ho=1。 

19. 命 g(n,h)= 日 ,一 1+ ,<j<nq/(qij +r), 这 里 9 和 > 在 定理 百 中 定义 ; 然 
后 在 (6) 中 以 g 代替 f。 

20.( 把 它 写 出 来 比 理解 它 更 为 困难 。) 假 设 一 个 有 有 序 文件 R1,…, Rw 已 经 进 
行 了 h 排序 ,并 设 1 委 ;i 委 六 -83; 我 们 要 来 证 明 K; 三 K;,;;。 求 u,v 使 得 1 志 u ,wv 声 
h,i 寺 u, 且 i+k 三 vw (modulo hh ); 并 对 于 Zz; = Ky,r(j-1 hn, y= 天, on 应 用 和 定理 
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L。 于 是 诸 y 的 头 ” 个 元 素 | 和 让 2 的 最 后 ” 个 元 素 
和 r 是 使 得 w+ 有 +(r 一 1)h 二 NN 的 最 大 整数 。 

21. 如果 Xh+ 沪 二 XTh+yk, 我 们 有 (x 一 x )h=(y 一 y)k, 所 以 对 于 某 个 整数 
ft, 有 xz 二 x+ 记 和 y= 二 y-th。 令 hh+kk=1; 于 是 n= (nh )h+ (nk )k, 所 以 
每 一 个 整数 n 有 形 如 n= xh + xk 的 惟一 表示 ,其 中 0 志 x<&, 且 n 是 可 生成 的 当量 
仅 当 y 宇 0。 类 似 地 , 令 hk 一 有 一 一 n= 二 zh + yk; 于 是 (z+x)ht(yty)k=hk 
一 有 一 上 ,因此 x + 夺 k 一 1(modulo 上 有), 因而 我 们 必定 有 x+x = 一 1。 因 此 i 
y 二 一 1] 和 y 之 0 当日 仪 当 y <0。 

这 个 结果 的 对 称 性 表明 ,在 所 述 的 形式 下 , 恰 有 方 (h 一 1) (4 一 1) 个 正 整 数 是 不 
可 表示 的 ,这 是 原来 由 Sylvester 提出 的 [Mathematical Questions, with their Solu- 
tions, from the “Educational Times”, 41 (1884) ,21]。 

22. 为 了 避免 及 烦 的 记号 ,考虑 =4, 这 代表 了 一 般 情 况 。 设 n, 是 同 余 于 & 
(modulo 1$) 而 且 可 以 以 1$ayo+31ci;+… 的 形式 表示 的 最 小 数 ; 于 是 我 们 很 容易 求 
得 

k=0 1 2 3 4 S$ 6 7 8 9 10 11 12 13 14 
Me =0 31 62 63 94 125 126 127 158 189 190 221 252 253 254 
因此 239=2 (2 一 1) 一 1 是 最 大 的 不 可 表示 的 数 ,而 且 不 可 表示 的 数 的 总 数 是 
Z4= 一 (21 一 1I+72 -2+ +n1 一 14)/1S= (2+4+4+6+8+8)+8+ 
(10+12+12+14+16+16)+16=2xr3+8:9 
Re RE 

对 于 另 一 个 问题 ,答案 分 别 是 22+2:+2 和 2: 1(2s+s 一 1)+2。 

03 人 的 全 = 人 在 已 的 于 文 作 虽 至 多 和 月 忆 基 全 机 (大 本 二 四 |) 大 | 外 及 序 : 

24.( 同 V.Pratt 一 起 得 到 的 解 。) 构造 11,2,…,NN| 的 “h 违例 排列 "如 下 。 以 ai 
“an 个 至 日 开始 ;然后 对 于 7 =2,3,4,… 执 行 步骤 j: 每 当 (2”* -1)7 -是 如 同 习题 
22 中 那样 可 表示 的 一 个 正 整 数 时 ,用 在 这 个 排列 中 还 未 出 现 的 最 小 数 从 左 到 右 地 
填 人 诸 空 白 位 置 c; 。 继 续 进 行 ,直到 所 有 位 置 都 填 满 为 止 。 于 是 对 于 N =20 这 个 2 
违例 排列 是 

6 2 1 9 4 3 12 7 S$ 13 10 8 17 13 11 19 16 14 20 18 
对 于 所 有 的 & 宇 h 的 h 违例 排列 是 (2* -1) 有 序 的 。 当 2*<j 达 N/(2* -1) 时 ,在 步 
又 7) 期 间 恰 好 填 满 2* -1 个 位 置 。 它 们 中 的 第 &+1 个 至 少 增加 22-1-2& 到 移动 
次 数 上 。 这 些 移动 是 对 排列 进行 2 -1 排序 所 要 求 的 。 因 此 当 N=2*+1(2* 一 1) 
时 为 排序 具有 增 量 六 = 2 -1 的 h 违例 排列 的 移动 次 数 是 >2% 《> 二 Na2。Prat 
在 他 的 博士 论文 (斯 坦 福 大 学 ,1972) 中 ,把 这 个 构造 推广 到 很 大 的 一 类 相似 序列 , 包 
括 (12) 在 内 。H.Erki5 BIT 20(1980) ,130 一 136 讨论 了 需要 甚至 更 多 移动 的 寻找 排 
列 的 带 启 发 式 探索 。 关 于 对 Pratt 构造 的 改进 ,也 请 见 Weiss 和 Sedgewick,J. Algo- 
。 .389 ， 
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rithms ,11 (1990),242~251。 
25. FF, ;1。[ 这 一 结果 是 由 了 HH.B.Mann 得 出 的 , Econometrica 13 (1945),256 |; 

因为 这 个 排列 必须 由 1 或 21 开 头 , 至 多 有 |Lz/2j 个 反 序 ;而 且 反 序 的 总 数 是 

和 N -1 2N 

Ts Fn 十 ss FN-i 
(见习 题 1.2.8-12)。 注 意 , Fw ,1 个 排列 可 以 方便 地 由 点 和 破 折 号 的 “Morse 代码 ” 序 
列表 示 ,这 里 破 折 号 对 应 于 反 序 ;参见 习题 4.5.3-32。 因 此 我 们 已 经 发 现在 长 度 为 
N 的 所 有 Morse 代码 序列 中 破 折 号 的 数目 。 


我 们 的 推导 表明 ,一 个 随机 的 3 和 2 有 序 排列 大 约 有 己 ($-!+28 ?)N=$ 


NNS5.276N 个 反 序 。 但 如 果 一 个 随机 排列 是 3 有 序 的 , 则 它 也 是 2 有 序 的 ,习题 

42 表明 , 它 有 之 N/4 个 反 序 ;如 果 它 是 2 有 序 的 , 则 它 也 是 3 有 序 的 , 它 有 六 N/3。 
26. 是 的 ;一 个 最 短 的 例子 是 4 1 3 7 2 6 8 5, 它 有 9 个 反 序 。 一 般 地 

说 ,对 于 一 1 过 ;过 1 ,构造 cj; ,3k+4s 产生 3- 有 序 ,5- 有 序 ,7- 有 序 的 一 些 文件 ， 


并 有 近似 于 他 NN 个 反 序 。 当 Nmod 3= 2 时 ,这 个 构造 是 最 好 的 。 


27.(a) 参 见 ]. Algorithms 15 (1993) ,101 一 124。C.G.Plaxton 和 工 .Suel,J. AL- 
gorithms 23 (1997) ,221 一 240 独立 地 发 现 了 一 个 更 简单 的 证 明 。 它 表明 ,c 可 以 是 


任何 < 1/2 的 常数 。(b) 如 采 m>Fc(In Nj/ln ln N) 这 是 显然 的 。 否则 JJ1+ eV 


宇 N (lIn N)*。R.E Cypher[SICOMP 22 (1993),62 一 71] 已 经 证 明 当 对 所 有 的 ;, 增 
量 满足 h, ,1 >h, 和 当 一 个 排序 网 络 像 在 习题 5.3.4-2 中 那样 构造 时 ,稍微 更 强 的 上 限 
是 Q(N(logN)*/log log N)。 对 于 渐 近 的 平均 运行 时 间 ,还 不 知道 非 平 几 的 下 限 。 

28. 由 (11) ,209 109 41 19 $ 1, 但 可 能 还 有 更 好 的 序列 ;见习 题 29。 

29.1971 年 C. Tribolet 的 实验 ,得 到 选择 值 373 137 53 19 7 3 1(Be 守 7210) 太 
317 101 31 11 3 1(B,.= 8170)。[ 这 些 值 中 的 头 一 个 需要 守 127720 w 的 排序 时 间 ， 
相对 照 的 是 当 利 用 增 量 (11) 对 相同 的 数据 进行 排序 时 为 六 128593v ]。 一 般 说 来 ， 
Tribolet 建议 命 h, 是 最 接近 于 Nt 的 质数 。1972 年 Shelby Siegel 的 实验 指出 ,对 于 


N<10000 ,在 这 样 的 方法 下 最 好 的 增 量 数 是 tw: 3 ln(N15.75)。 


另 一 方面 ,Marcin Ciura 在 2001 年 的 实验 指出 , 增 量 229 96 41 19 10 4 1 可 得 到 
最 小 的 7 遍 的 B,..( 守 6879) ,虽然 序列 737 176 69 27 10 4 1 产生 最 小 的 总 时 间 ( 人 
125077 ) 。 

根据 Carole M. McNamee 所 作 的 广泛 测试 ,最 好 的 3 增 量 序列 似乎 是 457 1 
(B. :18240)。 对 于 4 增 量 ,在 她 的 测试 中 91 23 7 1 是 优胜 者 (B,.。s*11865) ,但 是 
一 个 颇 为 广泛 的 增 量 范围 也 大 体 给 出 相同 的 性 能 。 


30. 在 三 角 区 域 |z In 2+y In 3<InN,z 之 0 y 之 0| 中 的 整数 点 的 个 数 是 
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(logyN)(log3NN) + O(logN)。 由 定理 KK, 在 我 们 进行 h 排序 时 ,这 个 文件 已 经 是 2 
有 序 的 和 3h 有 序 的 ;因此 习题 25 在 此 适用 。 


31.01 START ENT3 TT 1 
02 1H LD4  H,3 T 
03 ENN2  — INPUT—N,4 T 
04 ST2 6F(0:2) T 
05 ST2 7F(0:2) T 
06 ST2 4F(0:2) T 
07 ENT2 0,4 T 
08 JMP 9F T 
09 2H LDA INPUT+N,1 NT-S-B+A 
10 4H CMPA INPUT+N—-H,1 NT-S-B+A 
11 JGE 8F NT-S-B+A 
12 6H LDX INPUT+N—-H,1 B 
13 STX INPUT+N,1 B 
14 7H STA INPUT+N-H,1 B 
15 INC1 0,4 B 
16 8H INC1 0,4 NT-B+A 
17 J1INP 2B NIT-B+A 
18 DEC2 1 S 
19 9H ENT1 —N,2 T+S 
20 J2P 8B T+S 
21 DEC3 1 T 
22 J3P 1B T | 


在 程序 DD 中 A 是 和 自 左 至 右 的 极 大 值 有 关 的 量 ,在 这 里 和 在 那里 一 样 A 也 是 
同 自 右 至 左 的 极 大 值 有 关 的 。 这 两 个 量 都 有 相同 的 统计 特性 。 在 内 循环 中 的 简化 
已 经 把 运行 时 间 减 少 到 7NT+7A-2S+1+1ST 开 单位 ,奇怪 , 竟 同 B 无 关 ! 

当 N=8 时 , 增 量 是 6,4,3,2,1, 而 且 我 们 有 A,。=3.892,B =6.762; 平 均 总 
的 运行 时 间 是 276.24u (对照 表 5)。A 和 B 两 者 在 排列 73845S162 中 都 取 极 大 
值 。 当 N=1000 时 ,有 40 个 增 量 ,972 ,864,768,729,…,8,6,4,3,2,1; 类 似 于 表 6 
中 的 经 验 测试 给 出 A 过 875,B 守 4250, 而 且 总 的 时 间 大 约 是 268000x ( 比 采 用 习题 
28 增 量 的 程序 D 的 两 倍 还 长 )。 

我 们 不 在 一 个 辅助 表 中 存储 增 量 ,而 是 很 方便 地 在 一 台 二 进 机 器 上 生成 它们 如 
下 : 

P1. 置 m<-2 N17 1, 小 于 NN 的 2 的 最 大 宕 。 

P2. 置 hh<m。 

P3. 使 用 h 作为 一 次 排序 扫描 的 增 量 。 
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P4. 如果 hh 是 侦 数 , 则 置 4 一 h + 有 /2; 然 后 如 果 有 <N, 则 返回 到 P3。 

PS. 置 x 一 | m/2j, 而 且 如 果 x 宇 1 则 返回 P2。 | 

尽管 增 量 不 以 递减 次 序 来 生成 ,但 这 里 确定 的 次 序 足 以 使 排序 算法 是 有 效 的 。 

32.412111320851014163916715。 

33. 可 以 作出 两 种 类 型 的 改进 。 首 先 , 假 定 人 为 的 键 码 Ko 是 co ,这样 我 们 可 以 
不 必 测 试 p 是 否 >0。( 例 如 ,这 个 思想 已 经 用 于 算法 2.2.4A 中 。) 其 次 ,一 个 标准 
的 “优化 "技术 :我 们 可 以 设置 两 份 内 循环 , 且 把 对 p 和 gq 的 寄存 器 赋值 相交 换 ;这 就 
避免 了 g 一 p 的 赋值 (这 个 思想 已 经 用 于 习题 1.1-3 中 )。 

于 是 ,我 们 假定 单元 INPUT 在 它 的 (0:3) 字 段 中 包含 最 大 可 能 的 值 ,而 且 以 下 列 
程序 代替 程序 工 中 的 行 07 和 它 后 面 的 诸 行 : 


07 8H LD3 INPUT,2(LINK) B’ » 

08 CMPA INPUT,3(KEY) B’ 

09 je 4F B” 如 果 开 >Kp 则 以 acer 转 到 
L4 

10. 7TH: SST TNPUTS2CIINEy: oN Ley 

I ST3 INPUT,1(LINK) N’ L<p 

1 JMP 6F N 转 到 减少 ;) 

13 4H LED INPUT,3(LINK) BY” pLg( 这 里 和 2 和 ?13) 

14 CMPA INPUT,2(KEY) B” 

15 je 8B B” 如果 KK> Kp 则 以 ge>P 转 到 
L4 

16、 -5H Sul TNPUTS3(LINEY :NY Le 

1 ST2 INPUTST(LINK) NN .Li 

18 6H DEC1 1 N 7J1< 171 一 1 

19 ENT3 0 N q<0 

20 LDA INPUT,1 N K<—K; 

5 J1P 4B N N>j 宇 1 | 


这 里 B+B =B+N-1,N +N =N-1, 所 以 总 共 的 运行 时 间 为 SB+14N+N 
-3 单位 。 由 于 N 是 在 其 右边 有 奇数 个 较 小 元 素 的 元 素 个 数 ,因此 它 有 下 列 统 计 
数字 : 


min 0 ,ave 3N 十 二 有 wp a 3 Hy ,max N= 1 | 


co 的 技巧 也 可 以 加 速 程序 S;J.H. Halperin 建议 的 以 下 代码 使 用 了 这 一 思想 以 
及 MOVE 指令 ,从 而 使 运行 时 间 减 少 到 (6B +11N 一 10)w ,其 中 假定 INPUT+N+1 单 
元 中 已 经 包含 有 最 大 可 能 的 单字 值 : 
* 592 . 


3$.2.1 人 小 节 


01 START ENT2 N—1 1 

02 2H LDA INPUT , 2 N-1 

03 ENT1 INPUT,2 N-1 

04 JMP 3F N-1 

05 4H MOVE 1,1(1) B 

06 3H CMPA 1,1 B+N-1 

07 JG 4B B+ND-1 

08 5H STA 0,1 N-1 

09 DEC2 1 ND-—1 

10 J2P 2B N-1 | 


加 倍 内 循环 还 将 另外 节省 B/2 左右 的 时 间 单 位 。 
34. 有 [| 个 N 种 选择 的 序列 ,其 中 给 定 的 表 被 选择 ”次 ;每 个 这 样 的 序列 出 
现 的 概率 是 (1/M)"(1-1AM) ,因为 给 定 的 表 以 1AM 的 概率 被 选择 。 


35.24 ENT1 0 1 
25 ENT2 1—M 1 
26 7H LD3 HEAD+M,2 M 
27 J37 8F M 
28 ST3 INPUT,1(LINK) MD- 
29 ENT1 0,3 N 
30 LD3 INPUT,1(LINK) N 
31 J3P x*—2 N 
32 8H INC2 1 M 
33 J2NP 7B M | 


注意 :如 果 通 过 在 行 19 和 20 之 间 插 入 “STI END 4” 来 修改 程序 M 以 记 住 每 个 
表 列 当前 的 末尾 ,我 们 可 以 像 在 算法 5.2.2H 那样 把 表 列 钓 在 一 起 而 节省 时 间 。 

36 .程序 L:A=3,B=41,N=16, 时 间 =496v。 程 序 M:A=2+1+1+3=7， 
B=2+0+3+3=8,N=16, 时 间 =S$49x。( 我 们 还 应 该 加 上 习题 35 需要 的 时 间 ， 
94w ,以 便 进 行 严 格 地 公平 的 比较 。 乘 法 是 很 慢 的 ! 还 注意 习题 33 中 改进 的 程序 L 
只 花费 3586) 

37. 所 述 的 恒等式 等 价 于 


| 
gwv(z) = MTN > (ez) 


nj ttny = N 


这 可 以 像 在 习题 34 中 那样 来 证 明 。 把 其 中 某 些 生成 图 数列 成 表 , 以 指出 M 增长 的 
趋势 ,可 能 是 有 趣 的 : 
ga(z)=(216+648z+1080z*+1296z3+1080z+648z’” +216z°)/5184 


* $593 : 


习题 答案 


ga(z)=(945+1917z+1485z’ +594z’ +135z1+81z) +27z°)/5184 
ga3(z)=(1704+2264z+840z’+304z?+40z’+24z5 +8z°)/5184 
如 果 Gy(w,z) 是 所 述 双 重生 成 函数 ,对 > 求 微 商 给 出 
n\M-1 n 
Gu(w,z) = M|[ Dg(z) | 2 gi(z) 一 
7 之 0 /7 ， 7 之 0 n | 
因此 
， MY N _ Dw 2 时 M 
>) gun (1) NT = Me M1 于 )= we ; 


N 二 0 4 


类 似 地 ,公式 g?(1) = 子 [ ”+ 当 [ ”产生 








ppnow) 00 BS) IC) 
因此 方差 是 [二 (人 全] +2 (> ) jm， 


38.2 人 Go)= (> ) 83 置 p= FO/IM)- F((j—1)/ 


M), 且 F(z)= f(z),BF 有 相当 好 的 特性 时 ,这 近似 于 (>)/M 乘 | 上 f(x)?dz。 


[然而 , jo' f(x)*dz 可 能 十 分 大 。 关 于 适用 于 所 有 有 限 的 可 积 密度 的 一 个 改进 ,请 
见 定 理 5.2.2T]。 
39. 为 了 极 小 化 AC/M + BM ,我 们 需要 M =v AC/B ,所 以 M 是 刚好 高 于 或 低 
于 这 个 量 的 整数 之 一 。( 在 程序 M 的 情况 下 ,我 们 将 把 M 选 成 同 N 成 比 )。 
40. 通 过 把 限定 为 O(N!'*'), 把 (1 一 a/N)* 展开 为 e-w%N 乘 以 (1- Aa212N? 
+…), 并 且 使 用 欧 拉 求 和 公式 ,可 以 得 到 对 于 
Dn lil- alN)” N= -Ni+ > (N+Ek) (1- a/N)* 


的 渐 近 级 数 。 它 以 项 ee*Ej(a)(1+ a-12N)-(1+a)2N+O(N 一 ) 开 始 。 因 此 
(15) 的 渐 近 值 是 N(lna+ 7Y+Ei(a))/la+(1-e “(1+a))/2a+O(N ')。[ 对 于 
a 二 1,2,10,N 的 系数 分 别 守 0.7966,0.6596,0.2880。,] 注 意 , 由 习题 5.2.2-43, 我 们 
有 lnat+yY+Ei(a)= | 6(1-e ‘)t ‘dito 

41.(a) 我 们 有 a = O(A), 因 为 质数 定理 意味 着 在 各” 之 间 的 质数 个 数 
是 (oe* (kk+1) 一 oe/k)/In p+ O(A/k“); 对 于 所 有 充分 大 的 来 说 这 为 正 。 因 此 
(10) 的 头 | 》 } 个 元 素 之 和 是 忆 i<i< 关 忆 (aa) = 了 isici<xO(p 7 而且 我 们 有 

i+j po (po 一 1)(p —1) 
1<i<j<h (po*—1)(po—1) 
504 ， 


2 





(b) 如 果 (， < ig N< (> ) ,我 们 有 (4 - 2)2< 2log,N, 因 此 p* = 


O(expw ln NI)。 
注意 当 o 一 1 时 , 基 序 列 a1,a;,,… 变 成 等 于 质数 序列 ,而 且 定 理 1 的 上 限 简 化 为 
O(N(log N)‘(log log N)™)。 


42.(a)[ 姚 期 智 ,J.Algorithms 1 (1980) ,14 一 S0]。 我 们 可 以 证 明 [7 对 表 列 的 


每 一 对 贡献 4 天 & ?h -2N3? + O(N/gh) 个 反 序 给 每 个 子 文件 (KK, ;a, Kaw24， 


人 ee 例如 ,假设 hh=12,9q=5,a=1, 并 且 考 虚 表 列 K;< Kis< Ky 过 … 
NR KKK mn) 风 中 有 鸭 友 闻 人 一 克 条 忆 之 
后 ,(K;3, Ky,Kis,Ki9,K27,K31，,…) 是 一 个 随机 2 有 序 的 排列 。 我 们 所 关心 的 元 素 
K; 有 j 夺 1(modulo 5) 和 j 寺 3 或 7(modulo 12); 因 此 ;三 51 或 31(modulo 60) 。 因 此 
我 们 要 来 计算 g(51,31) 的 平均 值 。 其 中 

(a SB > Ki 十 [有 > Ka Be a 


TCR 


的 = ee > Ie ee < N|/gh 十 二 


如 果 121 委 g 和 |g | 三 g ,我 们 有 
人 
因此 
人 > Kai |S 
ee nl i 
而 且 由 此 得 出 到 (JR 十 力 大 丈 由 六 岂 ) +8NI/ on。 类 似 地 我 们 求 得 Pay 
y) 宇 g(xX+ ph,y+ qh) 一 8Njgh。 但 对 于 任何 给 定 的 5 关 c ,对 于 使 得 x mod hh =6。 
和 yy mod hh=c 的 所 有 g 对 (x,y),g(x,y) 之 和 是 在 2N/h 个 元 素 的 一 个 随机 2 有 
序 排列 的 反 序 的 总 数 。 因 此 由 习题 14,g (x,y) 的 平均 值 为 g “VvV Ar1/128(2N/ 户 )37 
下 ON) 
(b) 参 见 S.Janson 和 D.E.Knuth,Random Structures and Algs. 10 (1997 ) ,125 
一 142。 当 h 和 g 很 大 时 ,我 们 有 y(h,g)= Vrxhll28g+O(g AI ) 二 
(OE) 
43. 如 果 在 步骤 D3 之 后 K< Ki, 则 置 (Kj,…, Ki,K)<(K,K,,…,K;_;); 否 
则 执行 步骤 D4 和 D5 直到 K 宇 K;。 这 里 当 j=h+1 时 1=1, 当 j 增 加 1 时 ,1<-1+1 
一 hl7=h]。[ 参 见 H.W.Thimbleby ,Software Practice @& Exper. 19 (1989),303~307]。 
无 论 如 何 , 使 用 适当 的 增 量 序 列 , 内 循环 将 不 经 常 执行 使 得 这 个 改进 有 必要 
加 速 这 个 程序 的 男 一 个 想法 | 参见 W. Dobosiewicz, Inf. Proc. 人 ,11 
(1980),5 一 6] 是 当 及 >>1 时 仪 仅 部 分 地 排序 ,而 不 试图 使 K; 传播 到 比 j -hh 更 左 的 
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位 置 ;但 该 方法 似乎 要 求 更 多 的 增 量 。 

44.(a) 是 的 。 每 当 x 是 比 x 高 一 步 时 ,这 是 显然 的 ,而 且 习 题 5.1.1-29 表明 ， 
有 从 x 到 它 上 面 的 任何 排列 的 相 邻 转 置 的 一 条 通路 。 

(5) 是 的 。 类 似 地 ,如 果 工 在 x 之 上 , 则 x? 是 在 x 之 下 。 

(c) 否 ;2 1 3 既 不 在 3 12 之 上 也 不 在 它 之 下 ,但 2 1 3<312。 

[ 偏 序 x 三 x 首先 是 由 C. Ehresmann,Annals of Math. (2) 35 (1934) ,396 一 443 
$ 20 在 代数 拓扑 的 范畴 中 讨论 的 。 许 多 数学 家 现在 把 它 叫 做 排列 的 “Bruhat 次 
序 ” ,而 在 上 性 叫做 “ 弱 Bruhat 次 序 ” 一 一 尽管 在 上 性 实际 上 是 一 个 更 强 的 条 件 ， 
为 它 不 太 第 成 立 。 仪 仅 弱 的 次 序 定义 一 个 格 ]。 


5.2.2 小 证 


1. 否 ; 它 少 2m +1 个 反 序 ,其 中 mx 宇 0 是 使 得 i<k<j Ba;> a >a; 的 元 素 ax 
的 个 数 。( 因 此 所 有 的 交换 排序 方法 最 终 都 将 收敛 到 一 个 排 好 序 的 排列 。) 

2.(a)6。(b) [A. Cayley ,Philosophical. Mag. (3) 34 (1849) ,327 一 529. ] 考 虑 r 
的 循环 表示 。 在 同一 循环 中 的 任何 元 素 交 换 , 都 使 循环 数 加 1; 在 不 同 循环 中 的 任 
何 元 素 交 换 都 使 循环 数 减 1。( 这 实际 上 是 习题 2.2.4-3 的 内 容 。) 一 个 完全 排 好 序 
的 排列 通过 有 nn 个 循环 来 表征 。 因 此 xch(x) 是 减 x 中 的 循环 个 数 。[ 算 法 
5.2.3S 恰 恰 进 行 xch(Cr) 个 交换 ;见习 题 5.2.3-4。| 

3. 是 ;相等 的 元 素 决 不 能 彼此 交叉 地 移动 。 

4. 它 是 在 反 序 表 中 61 >>max(b,,…,b; ) 的 概率 , 即 

( p/n! = VA2n+ O(n!) = 可 忽略 的 


5. 我 们 可 以 假定 r+>0。 设 5/ =(b; 一 r+1)[6; 宇 rj] 是 在 r+ 一 1 次 扫描 之 后 的 反 
序 表 。 如 果 0 >0, 则 元 素 i 就 居于 bi 个 更 大 的 元 素 之 后 ,这 些 更 大 的 元 素 中 的 最 大 
者 至 少将 往 上 冒 到 02 + 的 位 置 , 因 为 有 i 个 元 素 三 i。 而 且 如 果 元 素 ) 是 有 待 交 
换 的 最 右 者 , 则 在 第 x 次 扫描 之 后 ,我 们 有 65; >0 和 BOUND=6b; +j 一 1。 

6. 解 法 1: 一 个 被 放置 在 离 它 最 后 位 置 右 边 最 远 的 元 素 ,在 每 次 扫描 中 都 左 移 一 
步 ,最 后 一 次 扫描 除外 。 解 法 2( 更 高 级 的 ): 由 习题 5.1.1-8, 答 案 (f), 对 于 1 全 in， 
a 一 i 三 b; 一 c;, 其 中 cics…c 是 对 偶 的 反 序 表 。 如 果 6 = max(61,…,b;) 则 c=0。 

7.(2(n+1)(1+P(n)- Pln+1))- Pn)- Pn)) = V2-x2)nt+ 
O(1)。 

8. 当 i1<k+2 时 ,对 于 6, 有 j+k 有 一 i+1 种 选择 ; 当 有 有 +2 过 i<n 一 j+2 时 有 
j 一 1 种 选择 ;而 且 当 i 宇 n 一 j+2 时 有 nn--i+1 种 选择 。 

10.(a) 如 果 i=2k 一 1, 则 从 (kk 一 1,a; 一 上 ) 到 (kk,a; 一 上 k)。 阁 i1=2k, 则 从 (a; 一 
kk 一 1) 到 (a, 一 k,k)。(b) 步 又 as4 -1 在 对 角 线 的 上 部 当 且 仪 当 a._1 一 上 当 
上 且 仅 当 ce 1 之 2 当 且 仅 妆 ax 1>ao 当 且 仅 当 QOS 2R 一 工 当 且 仪 当 Qk k 三 

596 ， 
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& 一 1 当 且 仅 当 步 又 cz 在 对 角 线 的 上 部 。 交 换 它 们 就 对 换 了 水 平 的 和 垂直 的 步 又。 
(c) 步 又 a,, ;4 在 对 角 线 之 下 距离 至 少 是 mx 的 地 方 当 上 且 仅 当 有 +M 一 1 二 ay 一 
(R+7M)+7 当 且 仅 当 av<2&+7M 当 有 目 仅 当 abp 宇 2k + mm 当 上 且 仅 当 ac， 一 有 之 
&+ 7M 当 有 上 且 仪 当 步骤 ax 在 对 角 线 之 下 距离 至 少 是 zi 的 地 方 。( 如 果 ay 所 2&+ 
m 且 apj<<2k+m, 则 至 少 有 (+ mm)+ 个 元 素 小 于 2k+ mm; 这 是 不 可 能 的 。 如 果 
a2p+d 宇 2k tm Ba; 二 2k 十 m , 则 之 中 有 一 个 必 是 > ;但 我 们 不 能 把 三 2& 二 mm 的 
所 有 元 率 都 填 入 少 于 (+ m) + 上 个 位 置 中 。 因 此 az < ax 当 且 仅 当 
azk+42mn-1<2k+ m 当 且 仅 当 2k + m 达 as,。 这 是 一 个 相当 意外 的 结果 !) 

11. 考 虑 格子 图 式 , 即 得 16 10 1351469215811312471(61 个 交换 )。 当 
N 更 大 时 这 一 情况 变 得 更 为 复杂 ;一 般 地 说 ,集合 |K;,, Ks,… | 应 当 是 11,2,…， 
M-1,M,M+2,M+4,…,2 LN/2j] 一 Mj, 排列 之 以 便 使 对 于 | N/2 个 元 素 的 交换 
成 为 极 大 。 这 里 M=『24/3] 其 中 廊 使 LNJ2] 一 寺 ((3k 一 2)24-!+ (一 1)*) 成 为 极 
大 。 交 换 总 数 的 极 大 值 是 1 -2lglg N/lg N+ O(l/log NN) 乘 以 比较 的 次 数 。[R. 
Sedgewick,SICOMP 7 (1978) ,239 一 272 。] 

12. 下列 由 W. Panny 编制 的 程序 通过 指出 ,对 于 i =r+2kp+s,k 宇 0 和 0 过 
5S< zz ,执行 步骤 M4 ,而 避免 AND 指令 。 在 这 里 ,TT 寺 2' 1,p 寺 rl1, rr 三 r12, 1 二 113， 
i+ d 一 N 寺 rl4, 以 及 p -1 ;三 r15 ;假定 N 宇 2。 


01 START ENT1 TT 1 MI . 初 钴 化 p。p<2: 
02 2H ENT2 TT T M2. 初 始 化 g ,rd 

03 ST2 Q(1:2) T qg<—2: | 

04 ENT2 0 T r<—0 

05 ENT4 0,1 T rI4<—d 

06 3H ENT3 0,2 A M3. 邓 ;进行 循环 。7z<er 
07 INC4 — N,3 A rl4<-i+d—N 

08 8H ENTS -1,1 DT+ s<0 

09 LDA INPUT + 1,3 C M4. 比较 /交换 R;;|: Riiy+41 
10 CMPA INPUT + N+1,4 C 

11 JLE x 十 4 C 如 果 K;4 1 三 K;;4+1 则 跳 转 
12 LDX INPUT+N+1,4 B 

13 STX INPUT + 1,3 B R;,1 2 R,, 1 

14 STA INPUT+N+1,4 B 

15 J52 7F C 如 果 s = p 一 1 则 跳 转 

16 DECS 1 C-D s<s+l 

17 INC3 1 C-D i<i+l 

18 INC4 1 


” 397 ，: 


19 J4AN 4B C-D 如 果 i+4d<N 则 重复 
2 JMP 5F E 否则 转 到 M5 

21 7H INC3 | D i<—i+p+l 

22 INC4 全 D 

23 J4AN 4B D 如 果 i + d<N 则 重复 循环 
24 5H ENT2 0,1 A M5. 对 gq 进行 牧 环 。 rr 一 p 
25 0 ENT4 x A rl4<—g 

26 ENTA 0,4 A 

27 SRB 1 A 

28 STA DUO2 | A G2 

29 DEC4 GT A rl4<—d 

30 J4P 3B A 如 果 qd 天 0 则 转向 M3 

31 6H ENTA 0,1 TT M6. 对 p 进 行 短 环 

32 SRB i 站 

33 STA x +1(1:2) 大 

34 ENT1 x T = /2 

35 JIN2 2B 矢 如 果 ps0 则 转 辐 M2 | 


运行 时 间 依 赖 于 六 个 量 ,其 中 仅 有 一 个 依赖 于 输入 数据 ( 剩 下 五 个 仅 是 NN 的 函数 ): 
T= t, 即 “ 主 循环 ”的 数目 ; A = i(t+1)/2, 扫 描 的 次 数 或 “次 循环 ”的 数目 ;B= (可 
变 的 ) 区 换 次 数 ;C= 比较 次 数 ;D= 连续 的 比较 的 块 区 数 ;E= 不 完备 的 块 区 数 。 当 
N25 村 不 难 证 明 . 记 (2 于 20N 和 二 ?证 这 及 了 和 0 .对 下定 了 守 本 让 守 106B 和 EE 
3+0+1+4+0+0+8+0+4+5=25,C=63,D=38,E=0, 所 以 总 运行 时 间 是 
11A+6B+10C+2E+12T+1=939u。 

一 役 地 说; 当 和 三 2 中 24 轩 Panny 已 经 证 明 ;D 人 ei(NT1)=2(2%s51) 


上 = 全 人 


13. 否 ,算法 Q 或 R 都 不 是 。 
14.(a) 当 p=1 时 ,我 们 对 于 最 后 的 合并 ,进行 (2 * 一 0)+(2’ -1)+(2 一 
OJ de 





i 
0 “二 Xo 十 2 人 > 加 二 Ss 因此 


(2 EY ls 

15.(a) 考 虑 使 i+ d= NN 的 比较 次 数 ; 然 后 对 使 用 归纳 法 。(b) 如 果 b(n)= 
c(n+t+1), 则 有 6(2n)=a(l1)+…+a(2n)=a(0)+a(l)+a(l)+…+a(n~m-1)+ 
om (ln 人 (2 
25(2)+y(272 +1)。(c) 参 见习 题 1.2.4-42。(d) 对 于 (z(N)+2z(LN/2] )+…) 一 
a (NN) 的 一 个 颇 为 费劲 的 计算 ,并 利用 诸如 
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nn nn mt 十 
2] -1 的 公式 , 即 得 结 
k=0 k=0 2 之 
果 
dN Me ee 1 Re 


E : 1 16e1 一 65 
P20 (ott eile -1) + 27 1 


16 .考虑 如 同 图 11 和 18 中 从 (0.0) 到 (ax ,的 [人 条 格子 通路 ,而 且 如 果 a 


j 便 附 加 权 了 (i 一 7 站, 如果 z<j 则 附加 权 f(j 一 i 一 1)+1 到 从 (i,j) 到 (i+1,7) 的 边 
本 f(&) 是 在 二 进展 开 k= (6b.0100)» 中 二 进位 b, 夺 Oa Hs 当 N= 
2n 时 在 最 后 合并 中 的 交换 总 次 数 为 

I 


| 攻 则 
RE 7 一 7 一 1 
R.Sedgewick 证 明 ,对 一 般 的 这 个 和 简化 成 为 
台 ( 人 )+23i>i( “” } Do<i<ar(7); 然 后 他 使 用 伽 玛 画 数 的 方法 得 到 渐 近 


会 二 

(neat gD) 1 + rt2 a(n))n+ O(aiog #), 其 中 807) 
是 lg n 的 一 个 周期 函数 且 有 以 .0005 为 界 的 数量 ;因此 当 n 一 吕 时 ,平均 说 来 ,大 约 
四 分 之 一 的 比较 导致 交换 [SICOMP 7 (1978), 239 ~ 272; 也 参见 Flajolet 和 
Odlyzko,SIAM J. Discrete Math. 3 (1990) ,238 一 239 ] 。 

17. 当 我 们 对 一 个 x=N 有 是 K, 是 最 大 键 码 的 子 文件 排序 时 ,检查 K、,,;。 当 自 
左 至 右 的 极 小 值 落 在 位 置 Ri 时 ,在 步骤 Q9 期 间 ,检查 Ko。 

18. 在 离开 Q5 之 前 , 步 又 Q3 和 Q4 仅 作 对 i 和 j 的 一 个 改变 ; R,… RR, 的 分 划 
过 程 在 步骤 Q7 中 以 j=『 (Ll+r)/21 结 束 , 并 且 尽 可 能 完善 地 分 开 这 个 子 文件 。 


量 地 说 ,我 们 以 A=1,B=[L(N-1)/2],C=N+(Nmod 2) 代 替 (17) ;除非 日 
C ,这 


质 上 使 我 们 处 于 此 算法 的 最 好 情况 (参看 习题 27)。 如 果 把 步骤 Q3 和 Q4 
> 2 写 变 为 “三 ”, 则 本 算法 将 不 再 排序 ;即使 在 (13) 中 我 们 取 “<” 号 , 它 将 交换 
Ro 和 Ri1 ,那样 第 三 个 分 划 阶 段 将 把 原来 的 Ro 移 到 位 置 R, 去 ,等 等 , 即 成 为 一 个 
真正 的 灾难 。 

19. 是 ,其 它 文件 可 以 以 任意 顺序 来 处 理 。( 但 当 每 一 个 分 划 步 又 相等 地 划分 文 
件 时 队 将 包含 Q (N/V log N ) 个 项 ,而 可 以 保证 栈 包 含 的 要 比 这 小 得 多 (参见 下 
题 )。 

20.max(0,Llg(N+2)/(M+2)j])。( 当 N=2*(M+2) 一 1 且 若 划分 子 文件 时 
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习题 答案 


所 有 的 子 文件 缘 被 完全 二 等 分 , 则 此 时 出 现 最 坏 的 情况 。) 

21. 在 步骤 Q6 中 恰 有 上 个 记录 移 到 区 域 R,,1… Rw 中 ,因此 B= +1。 划分 阶段 
以 j=;s 结束 ,因此 C-C=N+1-s 是 ;减少 的 次 数 。 当 诸 键 码 不 同时 ,在 步骤 
Q7 中 我 们 也 必 有 i= s+1, 因 为 i=j 蕴涵 K;==K; 于 是 C= ;。 

22. 由 于 A,_1(z)An-_,(z) 是 在 独立 地 对 大 小 为 ;sl1 和 NN 一 ;的 随机 独立 有 
序 文件 排序 之 后 ,A 值 的 生成 函数 ,因此 容易 得 出 ANw(z) 的 所 述 关系 。 类 似 地 ,我 
们 对 于 N > M 得 到 关系 式 


BN(z) = DD oeB, 1(z)Bn_,(z) 
Cv(z)= 不 iC, 1(z)CN,(z) 
Dy(z)= 志 D D, 1(z)Dy_,(z) 

Ev(<)= 直 DDE E, 1(z)En.,(z) 

Sa = Den Ws, Ce) Sv,(e) 


这 里 bw 是 s 和 1 在 长 度 为 N 的 一 个 文件 中 有 给 定 值 的 概率 , 即 
s—-l\/N-—;s ND-1 
| 上 | t J/N( i ) 
它 是 (LND) 乘 以 ( -1)1 种 对 |1,…,s -1| 进 行 排列 的 方法 乘 以 CN -J1 种 对 
41 站 和 排列 的 方法 于 以 和 边 上 具有 个 袍 动 元 的 | (种 


型 式 ; 对 于 0 三 NM ,我 们 有 Bn (xz) 一 CN(z) 一 SN(z) 一 1; DN(z) 一 Ileci1((1 十 
(k—1)z)/k); 而 且 En(z)= [ii((l+zt+ + 2 1)/k)。 

[ 当 六 很 大 时 ,考虑 这 些 生成 函数 的 特性 是 有 趣 的 ;已 知 类 似 于 CNw(z) 但 以 
zN 1! 代 替 xN*! 的 一 个 序列 收敛 到 一 个 非 正 态 的 概率 分 布 ,但 对 它 还 未 作 过 充分 分 
析 。 参 见 P. Hennequin, M. Regnier 和 U. Rosler 在 RAIRO Theoretical Informatics 
and Applications 23 (1989),317~333;23 (1989),335~343;25 (1991) ,8$ 一 100 的 
论文 。] 

23. 当 N>M 时 , An=1+(2/N) Doce<nAr; BN= Doci<s<Nbsn(t+ B,_1+ 
BN ,)=(1/N)2i((s -1)(N-s)/(N-1)+B, 1+Bn ,)=(N-2)/6+ (2/N) 
>0o<k< NBi[ 参 见习 题 22]; DN = (2/N) 0s<NDi; En 是 类 似 的 ; 当 N>2M+1 
时 , Sn= (2/N)20<i<nSs + (N 一 2M 一 2)/N。 对 于 某 个 函数 f ,这 些 递 推 式 的 每 
一 个 都 有 (19) 的 形式 。 
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24. 对 于 :NN 守 W ;过话 式 CN 二 LE(2/N) naanC ,对 守信 2 有 有 仙 ( 计 
+1)(2Hn+1-2Hxmr+2+1 一 4/(M+2)+2/(N+1))。( 所 以 我 们 节省 了 大 约 4N/M 
次 比较 。 II i 同 7 的 测试 , 则 每 次 比较 要 花费 更 长 的 时 
间 ,因此 除非 一 个 键 码 比较 的 费用 超过 FM In N 乘 以 一 个 寄存 器 比较 的 费用 ,否则 


我 们 有 损失 。 和 二 到 ,这 样 一 个 “改进 "使 得 快速 排序 显著 
地 不 快速 !1)。 


25.( 对 于 ;=1 重复 地 利用 (17)J4A= N- M,B=0,C= | 


DE=$=0. 

26. 实 际 上 你 不 能 比 对 123…,N-MNN-1…N 一 M +1 排序 做 得 更 糟 ; 更 
微妙 的 答案 NM-1M-2…1MM+1…N=-1i1 同 样 是 一 种 坏 的 情况 。 这 仅仅 比 
习题 25 坏 一 点 ,因为 它 使 P= M-1,E= [2 |。 

27.12 2 3 1 8 6 7 5 9 10 11 4 16 14 15 13 20 18 
19 17 21 22 23, 它 要 求 $546x。 可 以 证 明 , 当 通过 每 一 个 分 划 来 分 开 子 文件 下 
到 达到 3M +2 的 大 小 时 ,对 于 N=3(M+1)24 一 1 a 情况 ;然后 分 成 三 份 


以 避免 压 人 栈 的 开销 。 我 们 有 A=3:.2 -1,C = RS 
D=E=0。( 一 般 的 M 和 NN 的 最 好 情况 的 特性 作成 一 个 有 趣 但 复杂 的 模式 )。 
28. 递 推 式 
So WE 


I 
可 以 被 转换 成 
jc -2 人 - ee . We 有 
29 .一般 地 说 ,考虑 递 推 式 
C, = n+t+l1t+ < SI 


| 
2 2 





当 2z +1 个 元 素 的 均值 支配 分 划 时 就 发 生 这 种 情况 。 命 C(z) = 忆 ,C,z" ,这 个 递 推 
开本 转换 成 (1 = CCD (3B)/(2EE 2 SI1/(LTe 0 CO(2N( 1 
命 f(z)= C3 (1-z); 则 p,(90)f(z)= (2z:+2)!1 /zi*'?, 其 中 9 表示 算 子 x(qd/ 
ED 
(S(T 人 们 有 CB 
=0; 所 以 我 们 的 微分 方程 的 通 解 是 
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CO(z) = (24+2)1n(1- >z)1p( 一 上 一 2)(1 一 >) 生 ?十 > (1 — z)” 


这 里 Q0， Qi 是 p,(zx)=0 的 根 , 而 且 常 数 c 依赖 于 初 值 C,,…: CC 由 手边 的 恒 等 
式 


1 1 加 nim 1 7 
(1 一 2 mri ee -= 2 (Ht H,)| pn 》 之 0 
导出 惊人 地 简单 的 封闭 形式 的 解 
Hao Hn lu/ 
C, -H+ al 2 oj ) 


由 此 容易 导出 渐 近 公式 。( 前 寻 项 n ln nf/(H2,1+2 一 日 ,+1) 是 由 M.H.van Emden 
[CACM 13 (1970) ,3$63 一 567]) 发 现 的 ,他 利用 了 一 项 信息 论 的 方法 。 事 实 上 ,假设 
我 们 希望 分 析 任何 具 下 列 性 质 的 分 划 过 程 , 它 使 得 对 于 0 三 x 二 1, 当 N 一 co 时 左 子 
文件 以 渐 近 概率 | 了 Yf(zx)dzx 至 多 包含 zN 个 元 素 ;Van Emden 已 经 证 明 , 为 了 完 
整地 对 这 个 文件 排序 所 需要 的 平均 比较 次 数 是 近似 于 a zlnz ,其 中 w = 一 1/ 
[ (f(z)+f(1--z))zx ln xdx。 这 个 公式 既 可 应 用 于 基数 交换 方法 ,也 可 用 于 快 
速 排 序 和 各 种 其 它 的 方法 。 又 见 H. Hurwitz,CACM 14 (1971) ,99 一 102。) 

30. 解 法 1( 有 历史 意义 的 ): 每 个 子 文件 都 可 以 由 四 个 量 (7,r,k,X) 来 标识 ,这 
里 7 和 > 是 边界 ( 指 当 前 的 ),k 表示 在 整个 子 文件 中 已 知 具 有 相等 的 键 码 的 字数 ,X 
是 诸 键 码 的 第 (&+1) 个 字 的 下 界 。 采 用 非 负 的 键 码 ,我 们 开始 时 有 (rr,&,X)= 
(1,N,0,0)。 当 分 划一 个 文件 时 ,我 们 命 K 是 测试 键 码 开 。 的 第 (&+1) 个 字 。 如 及 
K >>XX, 则 分 划 把 所 有 宇 K 的 键 码 划 在 右边 ,所 有 < 天 的 键 码 划 在 左边 。( 每 次 仅仅 
考察 键 码 的 第 (k + 1) 个 字 ); 通 过 分 划 产 生 的 子 文件 的 标识 分 别 是 (1,j 一 1,k,XX) 和 
(j,r,k,K)。 但 如 果 KK = XX 则 分 划 把 所 有 >>K 的 键 码 划 在 右边 ,所 有 三 KK[ 实 际 上 
= KK] 的 键 码 划 在 左边 ,通过 分 划 产 生 的 子 文件 的 标识 分 别 是 (17,j,k&+1,0) 以 及 
(j++1,r,k,K)。 在 两 种 情况 下 ,都 不 能 保证 R; 是 在 它 最 后 的 位 置 ,因为 我 们 没有 
考察 第 (&+2) 个 字 。 为 了 适当 处 理 边界 条 件 ,应 作 显 然 的 进一步 的 修改 。 通 过 增加 
第 五 个 上限” 分 量 ,这 个 方法 可 以 成 为 对 左边 和 右边 是 对 称 的。 

解法 2, 由 Bentley 和 Sedgewick 给 出 [SODA 8 (1997) ,360 一 369] :在 由 (2 ,7， 
&) 标 识 的 一 个 子 文件 中 ,和 在 解法 1 中 一 样 命 K 是 K, 的 字 &+1 ,但 使 用 习题 41 的 
算法 来 把 子 文件 分 成 对 于 < 之 KK, = K ,>K 的 三 种 情况 的 (1,i 一 1,k&k),(i,j,k+1)， 
(j 十 1,r,k)。 作 者 们 称 这 个 方法 为 多 键 码 快 速 排序 , 它 比 解法 1 显著 地 好 得 多 , 因 
此 它 堪 同 对 字符 串 进行 排序 的 最 快 的 方法 相 匹 敌 。 

31. 通 过 一 个 正常 的 分 划 过 程 使 Rj 最 后 落 到 R, 上 。 如 果 ;= mm, 则 停止 ;如 果 
s 达 mm, 则 使 用 同样 的 技术 来 求 右边 子 文件 的 第 (mx 一 s) 个 最 小 的 元 素 ; 如 有 果 sm 
则 找 左 边 子 文件 的 第 mm 个 最 小 元 素 [CACM 4(1961) ,321 一 322;14 (1971) ,39 一 
45 ]。 
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R.G.DromeyLSofeware Practice & Experience ,16 (1986) ,981 一 986] 已 经 注意 
到 ,只 要 ;或 7 已 经 达到 位 置 m 时 ,如 果 我 们 停止 每 个 分 划 ,就 需要 较 少 的 比较 和 交 
换 。 
32. 递 推 式 是 C11 =0 和 当 n>1 时 ,C,, 一 n+1+(A,, + B,,)/n, 其 中 对 于 1 
mn 
Asm = 2 Cy 和 Bn = 2 Co pm 


ls<m m< sn 


由 于 AipDm+D 王 Asm t+ Cwm 和 B+ = 二 Bm + Cm; 因此 我 们 可 以 首先 求 量 D， 
二 (n+1)Cearpym+t1) 一 nCsm 的 一 个 公式 ,然后 对 它们 求 和 以 得 到 答案 2((n +1) 
] 、 


H,—-(n+2-m)H,+r_ 一 (7 二 1) 万 十 二 写 ) 一 于 bo 一 二 Do 一 拉 Bon8nls 当 


n=2m -1 时 , 它 变 成 为 4m(Hzan 1- Ha)+4m-4H, + 全 (1- 86%1) = (4+4ln2) 


7 一 4lnzzaz 一 47y 一 3 + O(m 1!) 守 3.39n。|[ 参 见 D.E. Knuth,Proc. IFIP CONSTrESS 


(1971) ,19~27]。 

太一 个 解法 由 6.2.2 节 的 理论 得 出 :假设 诸 键 码 是 11,2,… ,nj , 且 设 Xi;, 是 在 对 
应 于 快速 排序 的 二 分 查找 树 中 节点 ) 和 公共 的 祖先 的 个 数 。 于 是 可 以 证 明 ,由 习 
题 31 的 算法 所 作 的 比较 次 数 为 了 ?1X + Xs -2[ 节 点 m 是 一 个 叶 ]。 在 一 个 随 
机 二 分 查找 树 中 节点 i 是 节点 j 和 & 公共 的 祖先 的 概率 是 1/(max(i,j,k) 一 min(i,， 
j,k)+1)。 由 下 列 事实 , 即 对 于 1j 夺 &,EXx= H+ Hiist+1-2H_j+1; 以 及 
Pr( 节 点 mn 是 一 个 叶 ) = Pr( 在 一 个 随机 排列 中 m 之 后 不 是 mm 二 ID)= 二 + 二 Bo + 


EO 十 3 nid [参见 R. Raman,SIGACT News 2$,2(1994 年 6 月 ),86 一 89]。 


关于 使 用 三 取 中 的 分 划 的 一 个 类 似 选 择 算法 的 分 析 , 参见 Kirschenhofer， 
Prodinger 以 及 Martinez ,Random Structures and Algorithms 10(1997) ,143 一 1$S6。 在 
习题 5.3.3-24 中 讨论 了 一 些 渐 近 地 更 快 的 方法 。 

33. 像 在 基数 交换 的 第 一 阶段 那样 进行 ,并 且 利 用 正 负 号 代替 二 进位 1。 

34. 只 要 我 们 在 每 个 阶段 已 经 找到 至 少 一 个 二 进位 0 和 至 少 一 个 二 进位 1 , 即 在 
每 个 阶段 中 进行 了 头 一 次 交换 之 后 , 即 可 以 避免 作 是 否 i 二 ;i 的 判断 ,这 在 程序 R 中 
节省 了 接近 2C 的 时 间 单 位 。 

35.A=N-1,B= (min 0,ave 4 NlgN ,max 3N lg N),C= NlgeN,G=3N, 
K=L=R=0,S=3N-1,X-= min 0,ave 3 (N—1),max NN 一 1 |。 一般 来 说 , 量 
A,C,G,K,L,R 和 S 仪 依赖 于 文件 中 的 键 码 的 集合 ,而 不 依赖 于 它们 开始 时 的 次 
序 ,仅仅 B 和 X 受 键 码 的 初始 顺序 的 影响 。 
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36.() 5 (0 )( 1)*+ia, = 局 (2 -1)*-ia, = 5 (7 ova -as 


nN 
m 


(b) 60);C— 0);((—1)"6,,);((1 -a)”); ( }- a)”(1— | (c) 把 有 


待 证 明 的 关系 式 写 成 x; = y, = as + zj, 由 (a) 部 分 我 们 有 y, = a,+z,; 而 且 
2 jy = zz, ,所 以 y, 和 x 一 样 满足 相同 的 递 推 式 。[ 关 于 这 个 结果 的 某 
些 推 广 , 见 习题 53 和 6.3-17。 直 接 证 明 x, = 4,2” !/(2”* 1 一 1) 看 来 并 不 容易 。] 


37. | en 有人 其 中 co,cl,cz,… 为 任意 常数 序列 。[ 这 个 答案 尽管 是 


正确 的 ,但 并 不 立即 揭示 出 (1/(n +1)) 和 《n -67 是 这 样 的 序列 ! 形式 为 (a, + 
an) 的 序列 总 是 自 对 偶 的 。 注 意 , 借 助 于 生成 函数 A(z)= ajz"/n! 我 们 有 A(z) 
=eA( 一 z); 因 此 A = A 等 价 于 说 ,A(z)e 是 一 个 偶 函 数 。] 

38 .产生 大 小 为 的 一 个 左 文件 和 大 小 为 N-s 的 一 个 右 文件 的 一 个 分 划 阶 段 ， 
对 总 的 运行 时 间作 出 如 下 的 贡献 : 

A=1, B=1:, C=N, K=64, L=6o0, R= nv, X=h, 
这 里 ; 是 K1,…,K, 诸 键 码 中 二 进位 6 等 于 1 的 键 码 的 个 数 ,而 且 有 是 K,,1 的 二 进 
位 5; 如 果 s= NN, 则 及 =0( 参 见 (17))。 这 导致 诸如 

s\I/N-—;s 
ma DN ea 


oi<s<N\t 
FN-D+2 ND ( ja, 对 FN>2;B0= Bi-0 
>2 *5 
的 递 推 方程 (参见 习题 23)。 用 习题 36 的 方法 来 解 这 些 递 推 式 ,得 出 公式 ANw = VN 


-Un+t1,By=F(Uy+tN-1),Cy= Vw tN, Ky= NI2,Ly= Ry=3( Vy UN 
-N) +1, Xn= 这 An。 显然 Gy=0。 

39. 快 速 排序 的 每 个 阶段 至 少 把 一 个 元 素 放 和 人 到 它 最 后 的 位 置 ,但 在 基数 交换 
期 间 则 不 一 定 ( 参 见 表 3)。 

40. 如 果 我 们 在 步骤 R2 中 每 当 x -ZL< M 时 即 转 到 直接 插入 , 则 这 个 问题 不 出 
现 ,除非 有 多 于 M 个 相等 的 元 素 出 现 。 如 果 后 者 是 一 种 可 能 的 前 景 , 则 在 步骤 R8 
中 每 当 j</ 或 j=r 时 ,我 们 可 以 判断 是 否 Kj=…= K,。 

41.Lutz M. Wegner[IEEE Trans C-34(1985) ,362 一 367] 讨 论 了 和 若干 种 方法 ,其 
中 下 面 这 个 (由 Bentley 和 Mcllroy 在 Software Practice & Exp. 23(1993) ,1256 一 
1258 作 了 简化 ) 方 法 看 来 在 实践 中 是 最 好 的 。 基 本 的 思想 是 以 五 部 分 的 数组 
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来 进行 工作 直到 中 间 部 分 为 空 为 止 , 然 后 把 两 端 交 换 到 中 间 去 。 

D1.| 初始 化 | 置 c<-p0< cec<d< rr。 

D2. [增加 5 直到 K,>>K 为 止 ] 如 果 8 委 c 和 K,<K, 则 5 加 1 并且 重复 这 一 
步骤 。 如 果 5b 过 c 目 负 = 开 , 则 交换 R,~ R,,a 和 0 加 1, 并 且 重 复 这 一 步 
又。 

D3. [减少 c 直到 K.<K 为 止 ] 如 果 6 三 c 和 K。.>K, 则 c 减 1 并 且 重 复 这 一 
步骤 。 如 果 5b 三 c 且 K, = 民 , 则 交换 R. 司 Ry,c 和 4 减 1, 并 重复 这 一 步 
又 。 

D4.[ 交 换 ] 如 果 5<c, 交 换 ReR.,2 加 1,c 减 1 并 返回 D2。 

D5. [清除 ] 对 于 0 二 kmin(a 一 1,6 一 a) 交换 Re>R 对 于 0 委 &A<min 
(d 一 c,r 一 4 ) 也 交换 R,;, 嘻 R,_,。 最 后 置 i< 一 /+6b 一 a,j< 一 rr 一 d+c。 

| 

对 于 步骤 D1 的 直截了当 的 修改 将 有 效 地 处 理赔 化 情况 并 且 确 保 在 我 们 达到 
D2 之 前 ,有 a<6b 和 c<4。 然 后 在 D2 和 D3 中 对 “2 委 c ”的 测试 就 不 必要 了 ;参见 
习题 24。 而 且 , 这 个 变动 将 使 这 些 步骤 本 身 无 需 交 换 记 录 。 

排序 的 主要 应 用 之 一 是 把 有 相等 键 码 的 记录 放 在 一 起 ,因此 算法 Q 的 三 划分 
方案 通常 比 二 划分 方案 更 可 取 。 在 步骤 D5 中 的 交换 是 有 效 的 因为 具有 等 于 的 
键 码 的 所 有 记录 现在 都 在 它们 最 后 的 栖息 地 。 

本 习题 是 由 W.H.J,Feijen 给 出 的 ,他 把 它 叫 做 “荷兰 国旗 问题 ” :给 定 在 一 列 中 
随机 地 安排 的 红 , 白 和 蓝 的 标记 的 集合 ,判定 应 如 何 交 换 标记 对 使 得 红 的 标记 将 届 
于 顶 上 ,而 蓝 的 那些 全 都 居于 下 边 ,同时 将 只 考察 每 个 标记 一 次 和 仅 使 用 一 些 辅助 
变量 来 控制 这 个 过 程 [参见 E. W. Dijkstra,A Discipline of Programming (Prentice- 
Hall,1976) ,第 14 章 ]。 

42. 这 是 由 R.M. Karp 给 出 的 一 般 定 理 的 特殊 情况 ;参见 JACM 41(1994) ,1136 
一 1150, $2.8。McDiarmid 和 Hayward,J. Algorithms 21(1996),476 一 507 已 经 得 到 
对 于 快速 排序 分 布 的 尾部 更 准确 得 多 的 渐 近 上 限 。 

43. 当 a 一 0+ 时 由 习题 1.2.7-24, | 9y '(e >”-1)dy+ | 7 e ”dy=T(a) 
-l/la=(T(a+1)-T(1))/a>L (1)=—Y。 


44. 对 于 宇 0 ， 我 们 有 六 (2) 一 二 (2m)eD2T (Ck+1)/2) - 6%- 
0 一 1)Bi42p41/((R+2j+1)j! (2m)7)。 当 = -工时 (36) 中 来 自 应-2(m) 的 
贡献 与 妃 ，; 的 展开 式 中 类 似 的 项 相 消 ,而 且 我 们 有 7-1(m) = H-1+ (1N2m) 
中 oj)~ 二 (la(2m) + 7) 一 本 js4( 一 1)Bs/(2j)j! (2m)。 因 此 由 (33) 的 项 
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N'/t 对 W, ;的 贡献 得 自 和 数 7 i J — 13/3m’* + /18m)(l 


-14/4m3) (1 -tl2m— #2/8m)+O(m YY)= 3 mlnm + 3 (In2 + y)m-— 
V 于 两 十 全 1 Ed 页 -六 :贡献 - 广 也 a 
(1 一 tJ2m)、(1 一 tm)+O( 加 加) = 一 诗 V2x 轴 + 计 。 项 方 6 产生。 最 后 项 
(1 一 1) BsN: ?贡献 方 m !5 > ! TO(Wm “) 


ET Re 
的 残 数 。 
46. 如 同 我 们 对 于 (45) 所 做 的 那样 ,我 们 得 到 (s 一 1)! /ln 2+ 6,(n), 这 里 


(NY 误 ee — 2xik/ln 2)exp(2riklgn )) 
Ii 2 


(注意 :对 于 整数 s 宇 0, |T(s +if) | = (了 Tocp<s(k 十 二))m/(zsin h rt), 所 以 我 们 
可 以 给 出 6,(;) 的 界 。) 


47. 事 实 上 ,对 于 所 有 >0, 卫 -er"2 (n/21): 等 于 习题 46 中 的 积 
48. 利 用 中 间 恒 等 式 
sl 1/2+i% _ 
1 一 e = | ye Tz) dz 


我 们 沿用 正文 中 的 方法 ;但 :1=@ “起 看 “一 二 中 室 的 作用 % Vail(W 1) 守 
eg 

(-1/27i) | 2 T(z)n-*dz/(2-*-1)+O(n-!), 而 且 在 习题 46 的 记号 下 ,这 
2 190 


积分 等 于 lg n+y/iIn2- 地 一 60(n)+ O(n '”)。[ 寺 是 在 习题 38 中 的 量 AN 是 
NU 


49 .等 式 (40) 的 右边 可 以 改进 为 估计 ez [1- 冯 22/A+O(Cza+zon 7) 有 。 


其 效果 是 使 习题 47 中 的 和 减 半 ,并 且 以 2- 于 (Un 2+ 61(n))+ O(z -代替 (50) 
中 的 O(1)。(“2” 来 自 于 (46) 中 的 “2/n”。) 
SO0.U,,= nlogpn + n((yY -1)/(ln m)-— 3 +686_1(n))+m/(m—1)-—1/ 


(2 In 加 ) 一 方 和 1(n)+O(n 1!), 其 中 6,(n) 像 在 习题 46 中 那样 定义 ,但 以 jn mm 和 
Iogm 来 代替 In 2 和 lg[ 注 意 :对 于 m=2,3,4,5,10,100,1000,105, 我 们 分 别 有 
-1(n)< .000000172501, .000041227 , .0002963 , .0008301433,，. 0062704 , .06797 ， 
.1525, .348]。 
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51. 设 N=2m。 我 们 可 以 推广 和 式 (35) 到 所 有 :之 1, 那 时 它 等 于 
Dt) TN) “de = 


1 2Tl 
| T(z) Ne(2e — k)dz 
假定 wa>(&+1)/2。 所 以 我 们 需要 知道 zeta 函数 的 性 质 。 当 %(w) 宇 -gqg 且 |w| 一 
co 时 5(mw)=O(z| 0); 因 此 如 果 仅 考虑 残 数 , 则 我 们 可 以 随心 所 欲 地 癌 左 移动 
积分 的 边 。 因 子 T(z) 在 0, 一 1, 一 2,… 处 有 极点 ,E(2z 一 &) 仅 在 z= (k&+1)/2 处 有 
一 个 极点 。 在 z= 一 7 处 的 残 数 是 N77( 一 1 人 (一 27 一 &)/j! 以 及 (一 n)= 


(一 DD)"B,ri/(n+1)。 在 z=(k+1)/2 处 的 残 数 是 了 PT(Ck+1)/2)N4*DR。 但 当 
k 二 一 1 时 ,在 z=0 处 有 一 个 双重 极点 ;而 且 E(xz)=1/(z-1)+yY+O(|z--1|), 所 
以 在 这 种 情况 下 0 点 处 的 残 数 为 y+ 方 InN - 广 Y。 我 们 因此 得 到 在 习题 44 的 答案 
中 所 述 的 渐 近 级 数 。 

52. 置 z=z/n; 则 


| 
(1/6n)(x*— zx +) 十) 
对 于 各 种 的 现在 可 以 借助 于 >》 tit 宇 11 rd(t)e-*/* 来 表达 所 求 的 和 数 。 沿 用 习题 
51 的 方法 ,由 于 5(z) = 》) 1 宇 1d(z1)t ,我 们 希望 来 计算 当 宇 0 时 T(z)n*t(2z 
一 上 “的 残 数 ,在 z = 一 ;处 ,这 个 残 数 是 n (一 1)7(By;4p411(27 + 有 +1))*/j!1, 而 在 
= = (4+ D2 处 ,这 个 残 数 是 n%92T((h + D12)[7 + 村 mm + 二 (+ ID12) 
其 中 y(z) = T(z)/T(z) = 五 -yy; 于 是 ,例如 , 当 &= 0 时 对 所 有 M 有 


1 1 
2 ie ‘ Id (1) = 二 Var 人 + 可 二 On M) ,对 于 


("= exp(— 2n(zx /ll .2+ rx/3. 4+)+ (x /2+ ri/4 + )— 





y -3In2) Tn 


s,/ 把 [ 喜 m n+ 芒 Y+ 南 - i6Im 2]V aIw + O(n 1!) 加 到 这 个 量 上 (参见 习 


题 1.2.7-23 和 1.2.9-19)。 
$3. 设 go=1-2, 推 广 习 题 36(c) ,如果 


zx, = a, + k Deg 十 gepr k) zs 


风 k 之 2 
Xx, = ay， + > (= Dai pr + g/L ~ pe — gt) 


因此 我 们 可 以 像 以 前 那样 求 By 和 Cw; By 中 的 因子 地 应 以 pq 代替 。 UN 的 渐 近 性 
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质 可 基本 上 如 正文 中 那样 考察 ,而 且 


1, = > (ew 一 ] 十 np'g” :) — 


| Tap +g) pg) = 

(nfhp)(lnn + 7 —1+h/2h, — h,+ 6(n))+ O(1) 
其 中 

hy, =— (plnp + glng),hy’ = pl(lnp)* + q(ln g)? 
而 且 

SG(7) = T(z)n l/h, 

这 里 求 和 对 所 有 使 得 p “+ gq “=1 的 复数 xz 1 进行。 后 一 点 集 一 般 地 似乎 是 难 
于 分 析 的 ;但 当 p= $6“,g=$ “时, 解 为 z= (一 1)*'! + xi/ln$。 主 项 (nln n)/h， 
也 可 以 从 习题 29 的 解答 中 所 引 的 van Emden 的 一 般 公式 得 到 。 对 于 p = #71, 我 们 
有 1/h, = 二 1.503718, 相 对 于 1/hip 守 1.442695。 


54. 命 C 是 半径 为 (M+ 的 一 个 圆 ,于 是 当 M-~> co 时 在 C 上 的 积分 变 为 


0。( Un 的 渐 近 形式 现在 可 以 用 一 种 新 方法 即 展开 TT(n +1)/T(n + ibm ) 来 导出 。 
当 f 有 相当 好 的 特性 时 ,本 题 的 方法 可 应 用 于 形 如 
D7) D0) = FhB (+ 1, ~ <)f(2)de 
的 所 有 和 和。 后 一 公式 可 在 N.E. Nerlund 的 Vorlesungen iiber Differen-zenrechnung 
(柏林 :Springer,1924) ,103 中 找到 。) 
55. 以 下 列 程序 段 代 替 程 序 Q 的 行 04 一 06 ,后 边 再 接 上 “STRA INPUT + 1,2?( 人 参见 


(27) 之 后 的 注释 ): 
2H ENTA 0,2 STA INPUT,3 cb<a JGE 5F 
INCA 0,3 STX INPUT , 2 CMPX INPUT,4 a<b,c 
SRB 1 5H LDA INPUT,4 rA<6b JGE 5B 
STA x +1(0:2) JMP 6F LDA INPUT , 3 a<c<b 
ENT4 4H LDA INPUT,3 < ea LDX INPUT, 4 
LDA INPUT , 2 rA<-a LDX INPUT , 2 STX INPUT, 3 
LDX INPUT , 3 rX<-c STX INPUT, 3 JMP 6F 
CMPA INPUT,3 JMP 5F 5H LDX INPUT,4 ba<e 
JL 1F 3H STX INPUT,2 ‘cab STX INPUT,2 
CMPA INPUT,4 rA:b LDX INPUT,4 6H LDX INPUT+ 1,2 
JLE 3F STX INPUT,3 STX INPUT,4 
CMPX INPUT,4 rX:b JMP 6F ENT4 2,2 
JG 4F lH CMPA INPUT,4 ENT5 0,3 


并 把 行 22 的 指令 改 成 为 “STX INPUT+1,2”。 如 果 二 进 移 位 不 能 用 , 则 头 三 条 指令 须 
改 成 “ENTX 0,2;INCX 0,3;ENTA 0;DIV=2=”。 
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这 一 程序 实质 上 交换 Rj; 1 和 RI(+ ,sj 并 对 三 个 记录 Ri, R141,R, 进行 排序 ， 
然后 应 用 通常 的 分 划 到 R, ,1…R,-1: 上 。 通 过 简单 地 把 中 间 元 素 放 在 rA 中 ,把 RR 
传送 到 中 间 元 素 以 前 的 位 置 ,并 且 如 同 它 现在 这 样 来 使 用 程序 Q 来 节省 代码 的 一 
些 行 ,是 吸引 人 的 。 但 这 样 一 个 方法 有 坏 结果 ,因为 它 需 要 N“ 步 的 阶 来 对 文件 N 
N -1…1 进 行 排序 。( 这 一 惊奇 的 结果 ,首先 是 由 D.B.Coldrick 发 现 的 ,要 见 到 你 才 
能 信 一 一 试 试 看 !) 上 边 推 荐 的 这 一 技术 ,是 属于 R.Sedgewick 的 ,看 来 避免 了 这 种 
“简单 的 最 坏 情 况 ” 的 异常 ,而 且 运 行 也 更 快 。 

通过 这 个 三 个 取 中 的 分 划 方 案 ,这 个 算法 不 考察 KKN+i, 但 在 步骤 Q9 中 它们 可 
能 考察 Ko。 

56. 通 过 命 yy = 二 nzsyUn = 二 Nyy41 一 (n+2)y ,vi =nu,ri1-(n-5)wu,; 对 于 


> ,我 们 可 以 解 递 推 式 (”]z, = 6,+2D8-1(k -1)(n -kh) zi 由 此 得 出 对 于 
n>>m,v;,= 二 6(0i+2 一 260i+1+6b,)。 例如 :对 于 nn 二, 命 x, = 6,1, 且 设 5b, 二 0。 则 
对 于 甩 有 的 00 因由 
=12/(m +1) ,我 们 最 终 求 得 对 于 n>m,zs= 全 (n+1D)/m(m+1)(m+2)+ 站 
Co 
恒 等 于 0 时 对 于 n> m 的 解 是 


Cr lash me .Am Le a 


Tn = (n+1) (mt Tp 3 


对 于 sm, 当 久 = | )/oe 和 ao =0 时 ,这 个 解 是 
7 (te 
n+l (六 -6)(p+1)(2+1)att 7 (p+1)(m +2)2t 


12 (m +1— pp)ez 
7 pO 
37.. .12 


对 于 n> m; 除 非 当 p= -1 时 ,我 人 有 zs/(n+1)= 池 (Hiri Hr2)+ 沽 + 北 


(mw+2)W(n+1)7, 而 且 当 p=6 时 ,zs/(n+1)= 一 学 (H, 6- Hs)/(n+1)2+ 


12 7 .437 


像 在 习题 21-23 中 那样 论证 ,我们 发 现 头 一 个 分 划 阶 段 现 在 对 A 贡献 1, 对 也 
贡献 上 ,对 C 贡献 N 一 1, 其 中 z 如 同 以 前 定义 ,但 在 做 了 习题 55 中 的 重新 安排 之 后 。 


在 这 个 新 的 假定 之 下 ,我 们 求 得 bov= 6 人 “人 /NN( ;因此 上 面 所 
述 的 递 推 式 以 下 列 方式 出 现 : 
“ 609 ， 


对 于 NN 对 于 N>M 的 


二 M 的 值 N 对 于 N>M 的 解 
A 
3 
AN 0 1 (CN+1D( 芝 ICM+2))-1+O(CN-9) 
Bw 0 (N—4)/5 (CN —3An)/5 
CN+D( 节 (Eva Hes) + 尊 - 字 (M+ 
CN 0 N-1 
2) |]+2+O(N ®) 
12 4 
pe NH | (N+1) (1- 尝 Hys (M+2)- /M+2))+ 
O(N ®) 
Ev N(N-1)/4 0 (N+1)( 襄 M- 甘 +/(M+2))+ O(N 9) 


类 似 地 , Sy= 广 (N+ 1)(SM+3)/(2M+3)(2M+l)-1+O(CN )。 在 习题 55 中 
的 程序 总 共 的 平均 运行 时 间 是 53 An +11Bv+4Cv+3Dv+8Ev+9Sv+7N;M 


=9 的 选择 比 M =10 的 选择 还 要 好 些 ,并 产生 近似 于 10 从 Nin N +2.116N 的 平 
均 时 间 [Acta If 7(1977) ,336 一 3411]。 若 以 DIV 代替 SRB, 则 运行 时 间 增 加 11Aw 
并 取 M = 10。 


5.2.3 小 沸 
1. 否 ;考虑 Ki1>>K,==… = Kw 的 情况 。 但 使 用 co 的 方法 (在 算法 S 的 紧 前 边 描 
述 之 ) 是 稳定 的 。 


2. 如 果 我 们 从 较 高 的 下 标 到 较 低 的 下 标 ,来 扫描 在 内 存 中 顺序 地 存放 的 一 个 线 
性 表 , 则 这 种 遍历 方法 通常 都 稍微 快 些 ,因为 判断 一 个 下 标 是 否 为 0 通常 比 起 判断 
它 是 否 超过 N 更 容易 些 。( 由 于 同一 原因 ,步骤 S2 的 查找 从 j 往 下 运行 到 1; 但 见 
习题 81) 

3.(a) 对 于 N ayian_ia1, a N aaaQN-142° "0142°" "AN 2N aaN 1 QQ1 
an-_iN 等 输入 ,出 现 排列 a1…an_1N。(b) 如 同 在 1.2.10 节 中 所 示 那 样 ,在 步 缀 
S2 的 头 一 次 迭代 期 间 , 极 大 值 改 变 的 平均 次 数 是 Hy 一 1。[ 因 此 ,Bw 可 以 从 等 式 1. 
2.7-(8) 求 得 |。 

4. 如果 输 入 是 (1,2,…,NN| 的 一 个 排列 , 则 在 步骤 S3 中 i=j 的 次 数 恰 比 排列 
中 的 轮换 个 数 少 1。( 其 实 ,不 难 证 明 , 步 又 S2 和 S3 只 不 过 从 它 的 轮换 中 撤销 元 素 
j; 因 此 S3 仅 当 7 是 它 的 轮换 中 最 小 元 素 时 才 什 么 也 不 干 )。 由 等 式 1.3.2-(21), 平 
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均 说 来 ,我们 可 以 节省 步骤 S3 的 N 一 1 次 执行 中 的 HNy 一 1 次。 

于 是 ,在 步骤 S3 之 前 插入 一 个 额外 的 判断 “i=j?" 是 低 效 的 。 然 而 我 们 可 以 不 
去 判断 i 和 7 的 值 ,而 是 稍微 地 加 长 S2 的 程序 ,重复 一 部 分 代码 ,使 得 如 果 在 查找 极 
大 值 期 间 初 始 的 猜测 K; 不 改变 , 则 决 不 会 遇 到 S3; 这 将 使 程序 S 稍微 快 一 点 。 

$.(N-1)+(N-3)+…=[LN/41。 

6.(a) 在 步骤 S3 中 如 果 i j, 则 该 步 使 反 序数 减少 2m 一 1, 其 中 x 比 开 1 
K;_1 诸 键 码 中 那些 处 于 K; 和 K; 之 间 键 码 的 个 数 大 1; 显然 m 不 少 于 上 一 个 步 嗓 
S2 中 对 B 的 贡献 。 现 在 应 用 习题 4 的 观察 ,把 循环 同 条 件 i = j 联系 起 来 。(b) 通 
过 逐次 的 交换 反 序 的 相 邻 元 素 ,每 个 排列 均 可 从 N…21 得 到 。( 以 相反 的 顺序 应 用 
把 排列 排 成 递减 次 序 的 交换 。) 每 个 这 样 的 操作 使 工 减 上 ,并 且 使 C 变化 二 1。 因此， 
没有 任何 排列 有 了 一 C 的 一 个 值 , 这 个 值 超过 N…2 1 的 相应 值 。[ 由 习题 5 ,不 等 式 
B 入 LN2/4] 是 最 好 的 。 

7. 姚 期 智 ,“On Straight Selection Sort” ,计算 机 科学 技术 报告 185$( 普 林 斯 顿 大 


学 ,1988) 证 明 , 方 差 是 aN15 + O(N! log N), 其 中 a= 今 Yzln 全 0.9129; 他 也 


猜测 ,实际 的 误差 项 要 小 得 多 。 

3. 假 定 我 们 已 经 记 住 了 max(Ki,…,K;-_1), 则 可 以 在 位 置 K; 处 开始 步骤 S2 
的 下 一 次 迭代 。 记 住所 有 这 些 辅助 信息 的 一 个 方法 是 使 用 一 个 链接 表 Li1… Ln, 使 
得 只 要 K; 是 黑体 的 , 则 Ki 是 上 一 个 黑体 元 素 ;L1 =0。[ 我 们 以 某 些 宛 余 的 比较 为 
代价 ,也 可 以 减少 所 用 的 辅助 存储 。] 


下 列 的 MIX 程序 使 用 地 址 修改 ,使 得 内 循环 加 快 。rI1l 圭 j,rI2==k& 一 j,rl3 寺 i， 
rA 汪 人,。 


01 START ENT1 NN 1 j<—N 

02 STZ LINK+1 1 

03 JMP 9F 1 

04 1H ST1 6F(0:2) N-D 修改 循环 中 的 地 址 

05 ENT4 INPUT,1 N-D 

06 ST4 7F(0:2) N-D 

07 ENT4 LINK,1 N-D 

08 ST4 8F(0:2) N-D 

09 7H CMPA INPUT+J,2 A [修改 地 址 |] 
10 JGE x 二 4 A 如 果 K, 宇 K, 则 转移 

11 8H ST3 LINK+J,2 N+1l-C 否则 Li 一 i [修改 地 址 ] 
12 6H ENT3 J,2 N+1-C i<-k [修改 地 址 |] 
13 LDA INPUT,3 N+1-C 

14 INC2 1 A k<-—k+l 

15 J2NP 7B A 如 果 三 7 则 转移 
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分 别 为 HN+1 和 HN 一 3; 因此 这 个 程序 的 平均 运行 时 间 为 (1.25N?*+ 31.75N - 


4H LDX INPUT ,1 N 
STX INPUT , 3 N R,<—R; 
STA INPUT,!1 N R; 一 以 前 的 R， 
DCE1 1 N j<—j—1 
ENT2 0,3 N rIJ2<—i 
LD3 LINK,3 N i<—L, 
J3NZ 5F N 如 采 i>>0 则 将 在 i 处 开始 
9H ENT3 1 C 否则 i<-1 
ENT2 2 C & 将 在 2 处 开始 
5H DEC2 0,1 N+1 
LDA INPUT , 3 N+1 rA<—K., 
J2NP 1B N+1 如 采 二 7 则 转移 
JlP 4B D+1 如 采 ;>>0 则 转移 1 


N 


9.N 1+ DNs((k -Dl2-14)= 址 ( 


15Hn + 14.5)wu。j 程 序 再 要 好 得 多 。 


10. 
087 一 一 
087 玉 、 2 人 
087 061 4 ~、, 本 4 和 A 和 
SA ,NN 
11. 
一 CC 
503 ~ 一 703 


x ~、 4 ~、, 4 和 
人 


12. 对 于 每 个 分 支 节 点 中 的 -ce 次 , 共 22-1 次 。 
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13. 如果 KK 宇 K, ,1, 则 当 j=r 时 步骤 H4 可 以 转 到 步骤 HS$。( 除 非 民 < K,,j， 
步骤 HS 什么 也 不 干 ,这 时 步骤 H6 无 论 如 何 将 转 到 H8)。 为 确保 在 整个 算法 中 K 
之 开 , 1, 我 们 可 以 以 人 Ni 委 min(K ,KKN) 开 始 ;在 步骤 H2 中 不 置 R < 一 R, 而 
置 民 ;1< 一 RN 和 RN411 一 RI; 在 r 三 1] 之 后 还 置 R,<— RN+io (这 项 技巧 既 不 加 快 
这 个 算法 也 不 使 程序 也 有 任何 缩短 )。 

14. 当 插入 一 个 元 素 时 ,给 它 一 个 键 码 , 这 个 键 码 小 于 (或 大 于 ) 所 有 以 前 指定 的 
键 码 ,以 达到 一 个 简单 队 ( 或 栈 ,分 别 地 ) 的 效果 。 

15. 为 了 有 效 起 见 , 下 列 的 解 是 有 一 点 技巧 的 , 它 避 免 了 3 的 所 有 倍数 
[CACM 10(1967) ,$70 ] 。 

P1. 置 p[1]<2,p[2]<3,k<-2,n<-5,d<-2,r<-1,1<-25, 而 且 在 优先 队 中 置 
(25,10,30)。( 在 这 个 算法 中 ,pli]j]= 第 i 个 素数 ;k= 至今 为 止 找到 的 素数 个 数 ;n 
三 素数 候选 者 ;qd = 到 下 个 候选 者 的 距离 ;v= 在 这 个 队 中 元 素 的 个 数 ;t1 = p[r+ 
2]*, 即 我 们 将 对 之 增加 的 下 一 个 n。 队 中 项 的 形式 为 (u,v,6p), 其 中 pp 是 ,wv 
=2p 或 4p 的 素 因 子 , 而 且 wu +w 不 是 3 的 一 个 倍数 。) 

P2. 设 (g,qg ,9 ) 是 有 最 小 的 头 一 个 分 量 的 队 元 素 。 在 队 中 以 (oo+a ,gq 一 g”， 
9 ) 代 蔡 它 。( 这 表示 必须 加 以 排除 的 g /6 的 下 一 倍数 )。 蔡 n > gq, 重复 这 一 步骤 
直到 nn 三 gq 为 止 。 

P3. 如果 n>NN, 则 结束 本 算法 。 否 则 , 若 2<o, 则 置 &A<R+1l,pLR] < 7 < 
2 +a,d<-6-aw, 并 重复 这 一 步骤 。 | 

P4.( 现 在 n= g 不 是 质数 ,) 如 果 n=z, 则 置 r<r+1,u<-p[r+2],t<-wu?, 并 
且 按 照 x mod 3=2 或 u mod 3=1 把 (1,2u ,6u) 或 (1 ,4u,6u) 插 入 队 中 。 

P5. 置 n< 一 n+d,d<-6 一 4, 并 返回 步骤 P2。 


于 是 这 个 计算 开始 如 下 : 
队 的 内 容 找到 的 质数 
(25,10,30) 5,7,11,13,17,19,23 
(35 ,20,30)(49,28,42) 29,31 
(49,28,42)(55,10,30) 37,41,43,47 


(55,10,30)(77,14,42)(121,22,66) 53 
如 有 果 把 队 保 持 为 一 个 堆 , 则 我 们 可 以 在 O(N log N log log NN ) 步 内 求 出 所 有 三 N 的 
素数 ;这 个 堆 集 的 长 度 至 多 是 <V N 的 素数 的 个 数 。Eratosthenes 的 贤 , 如同 在 习题 
4.5.4-8 中 实现 的 那样 ,是 需要 相当 多 随机 存 取 存储 的 一 个 O(N log log N ) 方 法 。 
7.1 市 中 讨论 了 一 些 更 有 效 的 实现 。 
16.11. 置 氏 < 有 待 插入 的 键 码 ;< +1。 

I2. 置 ;<-L7/2J。 

13. 如 末 i=0 或 KK, 宇 K, 则 置 民 i<K 民 并 且 终 止 此 算法 。 

I4. 置 K<-K;,j<i 并 返回 步骤 D。 
[ 工 .Porter 和 I. Simon 在 IEEE Trans SE-1(1975$) ,292 一 295 中 证 明了 ,给 定 一 致 地 
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随机 的 数 的 堆 ,如 果 4A,+1 表 示 步 又 4 被 执行 的 平均 次 数 , 则 对 于 n >>1, 我 们 有 A， 
=[lgnj+(1-n )A, ,其 中 = (16/_16，，…60), 蕴涵 nn = (16,_，…6o),。 如 
末 /三 [lg nj , 则 这 个 值 总 是 宇 As 1_1= (2 一 2)1(2 和 一 1), 而 且 总 是 乏 A < au ， 
其 中 wx 是 (19) 中 的 常数 ,| 

17. 文件 12 3 通过 算法 了 进 入 堆 321, 但 通过 习题 16 进入 堆 3 12。( 注 意 :后 
一 个 建立 堆 的 方法 有 阶 为 N log N 的 最 坏 情况 ;但 是 经 验 测 试 已 表明 ,在 建立 堆 的 
期 间 ,对 于 随机 输入 ,步骤 2 的 迭代 次 数 大 约 少 于 2.28N。R. Hayward 和 C. McDi- 
armid. |J.Algorithms 12(1991) ,126 一 1S3] 已 经 严格 地 证 明 比 例 常 数 介 于 2.2778 和 
2.2994 之 间 )。 

18. 删 去 步骤 H6 ,并 以 下 述 步 又 代 替 H8: 

H8 .[ 回 后 移动 ] 置 J1<i,z<eLj12 |]。 

H9 .[ 开 合适 吗 ?] 如 果 KK; 或 j= 1, 则 置 Ri<R 并 返回 到 H2。 否 则 置 R 

一 R;, 并 返回 H8 。 | 


这 个 方法 实质 上 与 习题 16 相同 ,但 堆 具 有 不 同 的 开始 位 置 。 对 文件 的 实际 修 
改 是 和 算法 HH 中 一 样 的 。 关 于 这 个 方法 的 经 验 测 试 表明 ,在 选择 阶段 每 过 筛 一 次 ， 
Rj 一 R; 出 现 的 次 数 分 别 以 概率 (.837,.135,.016) 为 (0,1,2)。 这 个 方法 使 程序 H 
稍微 长 些 , 但 是 把 它 的 渐 近 速度 改进 成 为 13Nlg N + O(N)。 把 一 个 变 址 寄存 器 的 
值 取 半 的 MIX 指令 在 这 儿 很 合意 。 

C.J.H.McDiarmid 和 B.A.Reed[J.Algorithms 10(1989),352 一 365 | 已 经 证 明 ， 
在 建立 堆 期 间 这 个 修改 也 节省 平均 (38-8)Ns:0.232N 的 比较 ,其 中 8 在 习题 27 
的 答案 中 定义 。 关 于 对 Floyd 的 改进 的 进一步 分 析 , 请 见 工 Wegener, Theoretical 
Comp. Sci. 118(1993) ,81 一 98 。 

武 继 刚 和 朱 湛 LJ. Comp.Sci.and Tech. 9 (1994),261 一 266] 已 经 发 现 ,也 可 使 用 
二 分 查找 ,使 得 选择 阶段 的 每 个 过 第 至 多 涉及 lg N +lglg N 次 比较 和 lg N 次 移动 。 

19. 如 同 在 习题 18 的 修正 的 过 往 算 法 那样 进行 ,日 K= Kn,1=1 和 r=N-1， 
并 在 步骤 H3 中 以 一 个 给 定 的 j 值 开 始 。 

20. 对 于 0k 全 n 和 对 于 某 个 g 宇 0, 其 二 进 表示 为 (5,… bra1…a,); 的 达 N 的 
正 整 数 的 个 数 显 然 为 (56,_1…60),+1+ 20<o<p2 = (6-1 b0)2o 

21. 设 ] 三 (cr c0)2 是 在 范围 L N/2 ”| 一 (Cb, “ber1)2 < I < (6, “be )2 一 
LN/2 中 。 则 s; 是 对 于 某 个 g 宇 0 其 二 进 表示 形式 为 (c,…coal…a,), 的 受 N 的 正 
整数 的 个 数 , 即 是 >, ,2 =2* ”一 1。 因 此 大 小 为 2*1* 一 1 的 非特 殊 的 子 树 的 个 
数 为 

LN/2* | -LN/2*1! | -1 =[(N 2)/2*1! | 
[为 证 明 这 后 一 恒等式 ,以 n=2 和 x=N/2** 使 用 习题 1.2.4-38 中 的 重复 律 。] 

22. 在 1=1 之 前 ,五 种 可 能 性 是 53412,35412,43512,15432 和 254 

1 3。 这 些 可 能 性 的 每 一 种 CLIIC2C3C4C5 在 /三 2 之 前 导致 三 种 可 能 的 排列 
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CC2434445，Q14443C2Q5， 1CS43444C2o 

23.(a) 在 B 次 迭代 之 后 ,j 宇 251; 因此 22 委 r。(b)2>7iLlogz(NA1 = (LN/ 
21-|LN/41)+2(LN/41-LN/8)+3(LN/81-LN16)+ 和 =LN2+LN4 + 
[NI181+…=N-yN), 这 里 yy(N) 是 六 的 二 进 表 示 中 1 的 个 数 。 又 由 习题 1.2.4- 
42 ,我 们 有 了 NIllg rj= NillgNj -2 1+2。 由 定理 H 我 们 知道 ,关于 吾 的 这 
个 上 限 在 堆 的 建立 阶段 是 最 好 的 。 而 且 注 意 这 样 一 点 是 有 趣 的 ,就 是 有 惟一 的 一 个 
包含 诸 键 码 11,2,…,N| 的 堆 , 使 得 在 算法 H 的 整个 选择 阶段 K 恒 等 于 1。( 例 如 ， 
当 N=7 时 , 即 堆 是 75 6 2431 时 ;不 难 从 NN 过 渡 到 N+1。) 这 个 堆 给 出 对 于 堆 排 
序 的 选择 阶段 B 的 极 大 值 (连同 DD 的 极 大 值 | N/24 一 1), 所 以 对 于 整个 排序 ,B 的 
最 好 的 上 限 是 N 一 y(N)+ Nillg Nj-28N 1I+2。 

24. DN llg k=(N+t1-2")n + Do 2 = (N+t1)n’— (2n 一 3)27 
-6, 其 中 n=|lgN (参见 习题 4.5.2-22); 因 此 最 后 过 筛 的 方差 是 By=((N +1)n“ 
-(2n 一 3)2”1:1-6)/IN 一 ((N+1)n+2 一 2*11)*“/IN“= O(1)。Bw 的 标准 差 为 
(D1{B, ls EMNI) T= O(N),. 

过 得 是 “均匀 "的 ,而 且 每 个 比较 K;: Kj; ;1 及 的 概率 得 出 < 。 在 这 种 情况 
下 对 于 C 的 平均 贡献 仅仅 是 对 于 A 和 B 的 平均 贡献 之 和 的 一 半 , 即 是 
nan-1 ,1 
[(2n ~ 1)2 (| 


10 1 3 1 1 2 1 1 1 1 1 1 
二 十 一 十 1] 半 十 二 十 1 二 十 1 和 宇 +2 一 十 一 十 1 二 十 1 二 十 2 一 十 1 二 
26. (a) (35 本 1 训 + 放 +1 广 +1T 邱 +2 太 + 方 +1 方 +1 方 +2 广 +1 


+2+2+3+0+1+1+2+1+2+2+3+1+2+2)/26=1189/780 守 1.524。 
(PDE) = N+ FLNI2) -3n+ Dhlmin(asisas — as-1 ~ DD/ (a ~ IN, 
这 里 v(k) 是 在 & 的 二 进 表示 中 二 进位 1 的 个 数 , 且 qa = (16.…6bo)2。 如 有 果 N=29 
+22+…+22, 上 且 el>e>…>e 二 0, 则 可 以 证 明 盖 -ovy(R) = 3((e +2)21+ (es 
+4)2%: 十 … 十 (e,+21)2%)+t 一 N。|[ 借 助 于 Mellin 转换 可 以 清楚 地 分 析 这 样 一 些 
和 的 渐 近 性 质 。 参 见 Flaiolet,Grabner, Kirschenhofer,Prodinger 和 Tichy,Theoretical 
Comp. Sci. 123(1994) ,291 一 314 | 。 

27.J.W.Wrench Jr. 已 经 发 现 ,一 般 的 Lambert 级 数 > ,1anz”"/(1 一 x") 可 展开 
成 为 DNsi(Davaa) zr = D(ant Desi(am tt anig) DZ 

[a, = 二 1 和 a, = 二 nn 的 情况 是 由 J.H.Lambert 在 他 的 Anlage zur Architectonic, 2 
(里 加 ,1771), $ 875 中 引进 的 ;Clausen 在 Crelle 3(1828),95 中 对 于 a, =1 的 情况 指 
出 了 他 的 公式 。 还 有 H.F.Scherk 在 Crelle 9(1832) ,162 一 163 中 给 出 一 个 证 明 。 当 


4 =n 和 z= 方 时 ,我 们 得 到 关系 


(27?+1 1 ) 。 





”013 ， 








_ _ 2 + 2 pm- 
P= 2 | 


2.74403 38887 59488 36048 02148 91492 27216 43114 + 
二 
re 
28-4°-3)N] 
附带 说 一 下 ,如果 在 习题 5.1.1-16 的 头 一 个 恒等式 中 我 们 置 g==x 和 z= xy， 
就 可 得 到 有 趣 的 恒等式 


> = > Ri Ce i 有 


n 宇 1 = < zr k 宇 1 


2 的 此 于 是 局 大 二 和 :3 用 让 本 父 有 点 是 [13 类似 于 称 
序 也 的 一 个 MIX 程序 花费 近似 于 21 Slog N13.7 lg N 个 时 间 单 位 。 利 用 习题 18 





的 思想 ,这 个 数 降 低 成 为 18 SN log3 N11.8N lg N ,尽管 除 以 3 将 增加 一 个 很 大 


的 O(N ) 项 。 

有 关 上 叉 堆 进一步 的 信息 ,请 见 S. Okoma,Lecture Notes in Comp. Sci. 88 
(1980) ,439 一 451。 

30 ,假设 n=2:-1+r, 其 中 :=|lgn | 且 1 委 rr 委 2 。 于 是 六， = [Mi 三 0] 和 通过 
考虑 在 KK; 的 位 置 处 过 筛 之 后 可 以 最 后 在 K, ;1 的 位 置 栖息 的 级 ; 上 的 元 和 素 个 数 ,有 
对 22 


t—2 
hi Dy a ep 


因此 如 果 gr = 有 ,12” ,我 们 有 


1—2 , 
| 
B(n+l)m = D3 2j Bn(m-—ji) 于 Bn(m-t+1) gam 1) ~ 全 < (lg(n 网 Rs 0 Snm 


j=0 
而 且 由 此 通过 归纳 法 得 出 g,,, 志 LL, = 2-2lg A。 

在 选择 阶段 期 间 平均 提升 的 总 数 是 BN = PN zomhnm ,其 中 hy 二 2 ,>0 
hn, 是 可 能 的 堆 的 总 数 ( 定 理 H)。 我 们 知道 BN 委 Nilg N |。 男 一 方面 ,我 们 有 BN 
p> J a —k)2*>m 2 2771 Ls 对 用 
有 的 m。 选 择 m = lg(hv/Lw) + O(1) 现 在 给 出 BA 宇 lg(hn/Ln)+ O(1)。 

由 习题 23(5), 为 建立 一 个 堆 所 需 比 较 次 数 至 多 是 2N ;因此 hv 过 NI /2 和。 显 
然 Ly 乏 (lg N) 六 ,所 以 我 们 有 lg(hn/Ln) 宇 N lg N- Nlglg N+ O(N)。 [J.Algo- 
rithms 1$(1993) ,76 一 100。] 

31.(J. Edighoffer 给 出 的 解 ,1981) 设 A 是 使 得 对 于 1< ii 委 2 ,AL21212| 过 
Al27] AL 2 | = 1 | 2 2 Ee 1 
之 n,A[2i -1] 宇 A[2i]。( 对 于 所 有 的 i ,这 后 一 条 件 成 立 的 充 要 条 件 是 , 它 对 于 

616 : 


5.2.3 小 节 


2112< ii 委 2 成 立 , 这 是 由 于 堆 的 结构 所 致 )。 这 “ 空 生 ”的 堆 包 含 2” 个 元 素 ; 为 处 理 
奇数 个 数 的 元 素 ,我 们 只 需 甩 开 一 个 元 素 到 边 上 。 适 当 修 改 本 小 节 中 其 它 算法 ,可 
以 用 来 保持 计生 的 堆 , 推 出 这 些 细节 是 有 趣 的 。 这 一 思想 由 J.van Leeuwen 和 TD. 
Wood 独立 地 发 现 并 作 了 进一步 的 发 展 [Comp.J. 36(1993) ,209 一 216] ,他 们 把 这 个 
结构 称 做 “区 间 堆 ”。 

32. 在 N 个 元 素 的 任何 堆 中 ,最 大 的 mw = 「N/21 个 元 素 形 成 一 个 子 树 。 其 中 至 
少 有 Liz/2j] 个 元 素 必 不 是 该 子 树 的 时, 因为 具有 有 个 叶 的 一 个 二 叉 树 至 少 有 & - 工 非 
叶 。 因 此 最 大 的 mx 个 元 素 的 至 少 | mx/2j 个 出 现在 堆 的 头 [L N/2」 个 位 置 中 。 这 些 元 素 
在 达到 它们 最 后 的 目的 地 之 前 必然 被 提升 到 根 位 置 处 ;所 以 由 习题 1.2.4 - 42 ,它们 


的 移动 至 少 对 B 贡 献 了 Llgk] = 地 mlgm+O(w)。 因 此 Bs(N) > 了 Ng N 


k=1 
+ O(N) + Bo(LN/2j), 这 一 结果 通过 对 NN 的 归纳 法 得 出 。[I.Wegener,Theoretical 
Comp. Sci 118(1993) ,81 一 98 ,定理 5.1。Schaffer 和 Sedgewick ,还 有 Bollobas、Fenner 


和 Frieze 独立 地 构造 了 要 求 不 多 于 方 N lg N + O(Nlog log NN ) 个 提升 的 排列 ;参见 


J .Algorithms 15(1993),76 一 100;20(1996),205 一 217。 根 据 习 题 30 的 结果 ,这样 的 
排列 是 十 分 稀少 的 。] 

33. 设 P.Q 指 同 给 定 的 优先 队 ; 如 同 在 正文 中 一 样 , 下 列 算法 使 用 约定 DIST(A) 

=0, 尺 管 A 实际 上 不 是 一 个 节点 。 

M1.| 初 始 化 ] 置 R<-A。 

M2.| 表 合并 ] 如 果 Q= A, 则 置 D<-DIST(P) 并 转 到 M3。 如 果 P= 人 A 则 置 P<- 
Q,D<-DIST(P) 并 转 到 M3。 否则 如 果 KEY(P) 之 KEY(Q) , 则 置 T<-RIGHT(P) ， 
RIGHT(P)<-R,R<-P,P<-T 并 重复 步骤 M2。 如果 KEY(P)<KEY(Q) , 则 置 T<- 
RIGHT(Q) ,RIGHT(Q)<-R,R<-Q,Q<-T 并 重复 步骤 M2。( 这 一 步骤 实质 上 合 
并 给 定 树 的 两 个 “ 右 表 ”, 它 暂时 把 各 上 的 指针 插入 到 诸 RIGHT 字段 中 。) 

M3.[ 完 成 ?7] 如 有 果 R= 人 则 结束 此 算法 ;P 指 问答 案 。 

M4.[ 修 正 诸 DIST| 置 0<-RIGHT(R)。 如 果 DIST(CLEFET(R))<D, 则 置 D<-DIST 
(LEFT(R)) +1,RIGHT(R)<—LEFT(R),LEFT(R)<-P; 否 则 置 D<-D+ 1,RIGHT 
(R)<-P。 最 后 置 DIST(R)<-D,P<-R,R<-Q, 并 返回 M3。 | 


34. 对 于 整个 生成 函数 L(z)= ,so0lnz” = ,>1Lm(z) 的 诸 部 分 ,以 递 推 式 
Li(z)= xz, Losi(z) = La(z)(L(z)— 2 Li(z)) 
开始 。 其 中 L,,(z) = z?” +… 生 成 从 根 到 A 具有 最 短 长 度 mx 的 左倾 树 , Rainer 


Kemp 已 经 证 明 L(z)= z+ FL(z) + 方 卫 ,>1Ln(z)? ,而 且 a 守 0.25036 和 6 过 


2.7494879。[Inf. Proc. Letters 25(1987),227 ~ 232;Random Graphs 87(1990),103 
一 130]。Luis Trabb Pardo 在 1978 年 注意 到 生成 函数 G(z)= zL(z) 满 足 漂亮 的 关 
.617 ， 


习题 答案 


系 G(z)=z+G(zG(z))。 

35. 设 删 去 的 节点 的 DIST 字段 是 do ,并 设 合 并 后 的 子 树 的 DIST 字段 是 di。 
如 果 au = 4di, 则 我 们 根本 不 必 向 上 走 。 如 果 4o>4di 则 41= ao 一 1; 而 且 如 果 我 们 
向 上 级 , 则 P 的 诸 祖 宗 的 诸 新 DIST 字段 必须 分 别 是 di +1,di1+2,…,di1+n。o 
如 果 do< ai , 则 向 上 的 通路 只 能 向 左 拐 。 

36. 不 用 一 般 的 优先 队 ,最 简单 的 是 使 用 一 个 双重 链接 表 ; 每 当 使 用 诸 节 点 时 ， 
就 把 这 些 节点 移 向 表 的 一 端 ,并 从 另 一 端 删 去 节点 [ 见 6.1 节 中 关于 “上 自 组 织 文 件 ” 
的 讨论 ]。 

37. 在 一 个 无 穷 堆 中 ,第 个 最 大 的 元 素 同 等 可 能 地 出 现在 它 的 更 大 的 祖先 的 
左 或 右 子 堆 中 。 因 此 我 们 可 以 使 用 数字 查找 树 理论 ,在 等 式 6.3-(13) 的 记号 下 ,得 
到 e(k)=C, 一 Ci-_1 通 过 练习 6.3-28 我 们 得 到 e(k)=lg + Y/(In 2)+ 3 -w+ 


60(k)+ OC(k 1) 守 lgk 一 .274, 其 中 a 在 (19) 中 定义 ,而 So(R) 是 ljg& 的 一 个 周期 函 
数 [P.V.Poblete,BIT 33(1993),411~4121]。 

38.Mo=B;Mi= 1; 对 于 N>1,Mw= INIUHMy_1 进 Mn_»w*, 其 中 = 
Llg(2N/3)j。 


s.2.4 小 市 

1. 以 志 =…= 志 二 1,j7= 二 1 开始。 重复 地 找 min(zi ，… ,zw )= zn ,并 置 zj < 
Tri IJ< 7 十 工 ,2 < i,+10 (在 这 种 情况 下 ,mm +1) = co 的 使 用 是 一 页 决定 性 的 妙 
着 。) 


当 有 & 相当 大 时 ,最 好 是 像 在 5.2.3 小 节 中 所 讨论 的 那样 ,在 适合 于 重复 选择 的 
一 株 树 结构 中 保持 键 码 zt ,… , zp ,使 得 在 第 一 次 之 后 每 次 找到 极 小 值 仅仅 需要 
作 | lg & | 次 比较 。 其 实 , 这 是 在 一 个 优先 队 中 “最 小 者 先 出 ”原理 的 一 个 典型 应 用 。 
诸 键 码 可 以 保持 作 一 个 堆 ,而 且 可 以 完全 避免 co 。 进 一 步 的 讨论 请 看 5.4.1 小 节 。 

2. 设 C 是 比较 的 次 数 ;我 们 有 C=m+n 一 S$S, 其 中 S 是 在 步骤 M4 或 M6 中 传 
送 的 元 素 个 数 。 容 易 看 出 对 于 1 三 ;三 m+ n,S 之 s 的 概率 是 


7 十 1 一 3 MI 十 7 一 3 7 十 7 
.= 
对 于 sm+n,g,=0。 因 此 S 的 均值 是 j= gqit+ qt 二 mf/(n+1)+n/(m+ 
1)[ 参 见习 题 3.4.2-5,6], 而 且 方 差 是 c2 ,= (gi+39+593+…) 一 Ap2 =m(2m+ 
n)/(nt+1)(n+2)+ (m+2n)n/(m+1)(m +2)— nu%o 于 是 


C =(min min(m,n),ave m+ 





1. 一 jm, Maxm+n—l,dev Gm) 


当 mm. = 二 n 时 ,这 个 平均 值 首 先 由 H. Nagler 计算 出 来 ,CACM 3(1960) ,618 一 
.618 ， 


$2 


620; 它 渐 近 于 22 2+ O(n !'), 并 有 V2 + O(n ') 的 标准 离 差 。 于 是 C 徘徊 地 接 
近 于 它 的 极 大 值 。 
3. M2 .如果 K;< Ki 则 转 到 M3 ;如果 K;= Ki, 则 转 到 M7 ;如 果 K;>K;, 则 
转 到 M5“。 
M7 . 置 Ki 一 Kj,k< 一 kt+1,i< 一 i+1,j< 一 j+1。 如 果 i>M, 转 到 M4 ;否则 
如 果 j>>N 转 到 M6 ;否则 返回 M2’。 | 


(对 于 算法 M 的 其 它 步 又 也 作 了 适当 的 修改 。 此 外 ,如果 我 们 在 这 个 文件 的 末尾 插 
入 人 为 的 键 码 Km;1= Kn141= %, 则 许多 特殊 情况 就 会 消失 。) 

4. 随 着 时 间 的 推移 ,出 现在 选择 树 的 一 个 固定 的 内 方 点 处 的 元 素 序 列 , 是 通过 
合并 出 现 于 该 节点 的 儿子 处 的 元 素 序 列 得 到 的 ($.2.3 和 中 的 这 个 讨论 是 以 选择 最 
大 元 素 为 基础 的 ,但 是 它 同样 也 可 以 应 用 于 颠倒 次 序 的 情况 )。 所 以 在 树 选 择 中 进 
行 的 操作 ,实质 上 和 合并 中 进行 的 那些 操作 相同 ,但 它们 以 不 同 的 序列 而 且 使 用 不 
同 的 数据 结构 来 实施 。 

习题 1 中 指出 了 合并 和 树 选择 之 间 的 男 一 个 关系 。 注 意 ,一 些 单 元 素 文件 的 N 
路 合并 是 一 个 选择 排序 ;请 把 (A ,B,C,DD ) 的 四 路 合并 和 先是 (A,B),(C,DD) 然 后 
(AB ,CD ) 的 两 路 合并 作 比 较 。 

5. 在 步骤 N6 中 ,我 们 总 有 K;< K;_1 亿 K;; 在 N10 中 ,K;<K;i1< Ki。 

6.2 6 4 10 8 14 12 16 15 11 13 7 9 3 5 1。 在 一 次 扫 
描 之 后 我 们 有 1 2 5 6 7 8 13 14 16 15 12 11 10 9 4 3, 预 期 
的 两 个 下 坡 消失 。 这 种 可 能 性 是 由 D.A.Bell 说 明 的 ,Comp.J.1(1958),74。 类 似 于 
此 的 怪 例 ,使 我 们 几乎 没有 希望 来 对 于 算法 N 作 一 个 精细 的 分 析 。 

7. 如 果 NN >1, 则 为 | lg N 1。( 考 虑 必须 把 p 加 倍 多 少 次 ,直到 它 宇 NN 为 止 )。 

8. 如 果 NN 不 是 2p 的 一 个 倍数 , 则 在 这 趋 扫描 中 有 一 个 短路 段 ,而 且 它 总 是 接 
近 于 中 间 : 设 它 的 长 度 是 1, 我 们 有 0 三 ;<p, 步 骤 S12 处 理 的 是 短路 段 和 空 路 段 “ 合 
并 ”, 或 1=0 的 情况 ;否则 ,我们 实质 上 有 zi 志 z2 志 … 二 zy |y 宇 … 宇 y1。 如 果 x 过 
y; 则 左边 的 路 段 首先 穷尽 ,而 且 传 送 了 xs 之 后 ,步骤 S6 将 使 我 们 达到 步骤 S13。 
男 一 方面 ,如 果 zx > yw, 则 右边 将 被 人 为 地 穷尽 ,但 在 步骤 S3 中 K; = x, 将 决 不 
< K,! 于 是 ,在 所 有 的 情况 下 ,S6 将 最 终 地 使 我 们 到 达 S13。 

10. 例如 ,如 果 j 宇 n , 则 算法 可 以 把 方法 rn 
突 地 合并 到 一 个 阵列 的 zj… zj 4; 诸位 置 上 。 留 点 心 我 们 就 可 以 进一步 利用 这 个 思 
想 ,使 得 整个 排序 仅 需 要 N + 2.*N1- 1 个 单元 。 但 是 这 个 程序 相对 于 算法 S 来 说 稍 
微 复杂 些 [Comp.J. 1 (1958),75; 也 见 L.S. Lozinskii,Kibornetika 1,3(1965) ,S8 一 
62 |] 。 

11. 是 的 。 例 如 ,这 可 以 通过 考虑 与 习题 4 提出 的 树 选 择 的 关系 看 出 。 但 显然 
算法 N 和 S 不 是 稳定 的 。 

12. 置 Lo<1,1:< 一 N+1; 然 后 对 于 p=1,2,…,N 一 1 作 下 列 工作 : 

. 619 ， 


习题 答案 


如 果 开 , 委 民 , 1 , 则 置 L, 一 p+1; 否 则 置 L, 一 (p+1),t<p。 最 后 置 上 ,一 
0;Ly<0,Lyi1*|Lw+#ilso 

(保持 了 稳定 性 。 扫 描 次 数 是 [lgr 1, 其 中 7 是 输入 中 递增 路 段 的 个 数 ;5.1.3 市 
中 分 析 了 > 的 精确 分 布 。 我 们 可 以 得 出 结论 : 当 使 用 链接 分 配 时 ,自然 合并 比 直 接 
合并 更 可 取 , 但 使 用 顺序 分 配 时 它 是 低劣 的 。) 

13. 对 于 N 写 3 的 运行 时 间 是 (11A+6B+3B’ +9C+2C ”+4D+5N+9)w, 其 
中 A 是 扫描 次 数 ;B= B +B 是 所 实施 的 子 文件 合并 操作 的 次 数 ,这 里 B' 是 其 中 pp 
子 文件 首先 被 穷尽 的 合并 次 数 ;C = C + C 是 所 实施 的 比较 次 数 , 其 中 C 是 满足 
K, 声 K, 的 比较 的 次 数 ;D = D+ 了 “是 当 另 一 个 子 文件 已 被 穷尽 时 在 诸 子 文件 中 剩 
下 的 元 素 个 数 , 其 中 D’ 是 属于 g 子 文件 的 这 样 元 素 的 个 数 。 在 表 3 中, 我们 有 A = 
4,B’ =6,B”=9,C =22,C =22,D’ =10,D”=10。 总 共 的 时 间 =761u。( 当 像 在 
习题 5.2.1-33 中 那样 进行 改进 后 ,可 比较 的 程序 5.2.1L 只 花费 433u ,所 以 我 们 看 
出 当 N 很 小 时 ,合并 并 不 特别 有 效 )。 

算法 L 对 诸 子 文件 进行 一 系列 的 合并 ,这 些 子 文件 的 大 小 (m,n), 可 如 下 确 
定 : 设 在 二 进 制 记号 下 N 一 1= (6@…6160),。 对 于 (m,n)==(2/,2),0 研 三 &, 有 
(Ba…5;+1)2 个 “通常 的 "合并 ;而 且 对 于 0 志 j 志 ,每 当 刀 =1 时 ,对 于 (m,n)=(27， 
1+ (656, 1…bo)2) 有 “特殊 的 ”" 合 并。 例如 当 N = 14 时 ,有 六 个 通常 的 (1,1) 合 并 ,三 
个 通常 的 (2,2) 合 并 ,一 个 通常 的 (4,4) 合 并 ,以 及 处 理 大 小 为 (1,1),(4,2),(8,6) 的 
子 文件 的 特殊 的 合并 。 合 并 大 小 为 (m,n ) 的 多 重 集合 Mw 也 可 通过 下 列 递 推 关 系 
来 加 以 描述 : 

MQ Mr N27 MU 0 过 2 

由 此 得 出 ,不 论 输入 分 布 如 何 ,我 们 有 A =TlgN1,B=N-1,C +D = 
| 06; [1+27[ 序 i+ 刀 tr1+…+ be]]: 因 此 仅仅 Bs 
C ,DD 需要 进一步 分 析 。 

如 果 对 于 算法 世 的 输入 是 随机 的 , 则 每 个 合并 操作 都 满足 习题 2 的 条 件 , 而 且 
同 其 它 合并 的 特性 无 关 ; 所 以 B,C ,D’ 的 分 布 是 每 个 子 文件 合并 时 它们 各 目的 分 
布 的 卷 积 。 这 样 的 合并 的 平均 值 是 B =n/(m+n),C’ =mn/l(n+1),D =n/j(m 
+1)。 对 于 所 有 有 关 的 (m,n ) 把 这 些 加 起 来 ,就 得 精确 的 平均 值 。 


当然 , 当 N = 24 时, 我们 有 最 简单 的 情况 : B= 广 B, Ce = 本 CooC+DD= 


kN ,而 且 D，= 12: 72i/(21-1+1))=aN+O(1), 其 中 => Le 
pe Ab a 





Q 十 


= 1 .2644997803484442091913197472554984825577 一 可 以 像 在 习题 





i 1 
2 2 和 2 dl] 
5.2.3-27 中 那样 计算 到 很 高 的 精确 度 。 这 个 特殊 情况 是 由 A. Gleason[ 未 发 表 ， 


1956] 和 HH. Nagler[CACM 3(1960) ,618 一 620j 首 先 分 析 的 。 
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5.2.4 人 小节 


14. 在 习题 13 中 置 D=B 以 使 C 取得 极 大 仁 。[W.Panny 和 H. Prodinger,Al- 
gorithmica 14(1995) ,340 一 3$4 已 经 对 算法 L 进行 了 详细 的 分 析 |。 

15. 对 于 已 知 工 , 等 于 或 的 诸 情 况 , 作 步 又 L3,L4,L6 的 额外 的 副本 。[ 只 
需 简 单 地 更 改 寄 存 器 的 名 字 ,也 可 作 进 一 步 的 改进 ,并 且 删 除 内 循环 中 的 赋值 ;一 p 
(或 ;一 g)! 例如 把 行 20 和 行 21 改变 成 为 “LD3 INPUT ,1(L) ”而且 以 rI3 之 值 为 p， 
rI1 之 值 为 ; ,以 及 L, 等 于 p 来 继续 运行 。 对 应 于 (p,g,r) 相 对 于 (rI1,rI2,rI3) 的 
不 同 排列 ,以 及 根据 L, 的 不 同情 况 ,我 们 可 以 构 作 内 循环 的 12 个 副本 ,从 而 把 平均 
运行 时 间 减 少 到 8NigN+O(CN)]。 

16.( 这 个 结果 将 比 算法 工 稍 快 ;参见 习题 5.2.3-28。) 

17. 把 新 的 记录 当 作 长 度 为 1 的 子 文件 。 如 果 最 小 的 两 个 子 文件 有 相同 长 度 ， 
即 重复 地 合并 之 。( 得 到 的 排序 算法 实质 上 和 算法 L 相同 ,但 在 不 同 的 相对 时 间 合 
并 诸 子 文件 。) 

18. 是 的 ,但 它 似 乎 是 一 项 复杂 的 工件 。 要 找 出 的 头 一 个 解 作 用 下 列 巧 妙 的 构 
造 。[Doklady Akad Nauk SSSR 186(1969) ,1256 一 1258]: 设 avV N。 把 这 个 文件 
分 成 为 妈 +2 个 " 段 2P1ppD DID, 其 中 忆 包含 (CN mod nn) 个 记录 ,而 每 一 
个 其 它 的 段 恰 包 含 ”个 记录 。 把 Zi 的 诸 记 录 同 包含 Rw 的 段 进行 交换 ;现在 这 
个 文件 有 Z1…2Z,A 的 形式 ,其 中 Z1…2,, 中 的 每 一 个 恰巧 包含 个 排 好 序 的 记录 ， 
而 且 这 里 A 是 包含 ;个 记录 的 一 个 辅助 区 域 ,其 中 的 ; 在 范围 2 委 *<272 中 。 

找 出 具有 最 小 前 导 元 素 的 段 ,而 且 把 整个 该 段 同 Zi 作 交 换 ; 如 果 有 一 个 以 上 的 
段 有 最 小 前 导 元 素 , 则 选择 有 最 小 尾 元 素 的 一 个 段 。( 这 花费 O( +72) 个 操作 。) 
然后 找 出 具有 次 小 前 导 元 素 和 尾 元 素 的 段 ,而 且 把 它 同 Z, 进行 交换 ,等 等 。 最 后 ， 
通过 O(m (+2))=O(CON) 个 操作 ,我 们 重新 安排 了 m 个 段 , 使 得 它们 的 前 导 元 
素 是 有 序 的 。 而 且 , 由 于 对 于 该 文件 原来 的 假定 ,在 Z1… 2 中 的 每 个 键 码 现在 都 
有 少 于 nn 个 反 序 。 

我 们 利用 下 列 技巧 ,可 以 合并 Zi 和 2 :把 2 同 A 的 头 n 个 元 素 A' 进行 交换 ; 
然后 以 通常 方式 合并 Z, 和 A“ ,但 当 它 们 被 输出 时 与 Z12, 的 元 素 相 交换 。 例 如 ,如 
果 7)2=3, 且 zi< yi<z<y<xz3s 所 罗 ， 则 我 们 有 


段 1 段 2 辅助 区 域 
初始 值 的 内 容 : ZizazzZz3a3 yi1yz2y3 Q1Q20Q3 
交换 Zi : Q10203 YY1Y2Y3 ZI1Z273 
交换 1 1 X14203 1.yY2.y3 CI 之 2 之 3 
交换 .y1: 之 1.y1C3 C2.yY2.73 C1 之 2 之 3 
交换 2 : 之 1.y1 人 之 2 C2.yY2.y3 C143 之 3 
交换 .y2 : 1.1 之 2 .Y242.y3 CI1I43 志 3 
交换 之 3 : 过 1.y1 志 2 223Y3 U10Q302 


( 当 辅 助 区 域 的 第 n 个 元 素 被 交换 过 后 ,这 个 合并 就 总 是 完成 了 ;这 个 方法 一 般 会 打 
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乱 辅 助 记录 的 原来 位 置 。) 

上 述 技巧 用 来 合并 Zi 和 2Z, ,然后 Z, 和 23 ,… 全 1 和 i 总 共 需 要 O( man) 
= O(N) 个 操作 。 由 于 没有 多 于 ”个 反 序 的 元 素 ,这 x 个 文件 的 2 你 部 
全 被 排 好 序 。 

为 了 最 后 的 “清理 ” ,我 们 通过 在 0(*) = O(N) 步 内 进行 插入 来 对 Ry; 12 
RN 排序 ;这 把 * 个 最 大 元 素 带 到 区 域 A 中 。 然 后 利用 上 pe 
域 A( 但 整个 地 交换 右 和 左 ,小 于 和 大 于 的 作用 ) ,合并 Rr Re 
RN-_,。 最 后 ,我 们 通过 插入 来 对 RN4+1_,… Rw 排序 。 

J .Katajainen,T.Pasanen 和 J.Teuhola 在 Nordic J. Computing 3(1996) ,27 一 40 
中 讨论 了 随后 的 改进 。 关 于 现场 稳定 合并 的 问题 ,请 见 5.5-3 的 答案 。 

19. 我 们 可 以 把 输入 的 车 辆 编号 ,使 得 它们 最 后 的 排列 依次 为 1 2…27; 所 以 
这 实质 上 是 一 个 排序 问题 。 首 先 把 2" ! 辆 车 移 过 n 一 1 个 栈 , 以 递减 的 次 序 来 放置 
它们 。 然 后 把 它们 转移 到 第 ”个 栈 , 使 得 最 小 的 在 顶 上 。 然 后 使 其 它 2"-1! 辆 车 通 
过 n 一 1 个 栈 , 以 递增 的 顺序 放置 它们 ,并 使 它们 停 在 第 ”个 栈 之 前 。 最 后 以 显然 
的 形式 把 两 个 序列 合并 在 一 起 。 

20. 天 于 进一步 的 信息 ,请 见 R.E.Tarjan,JACM 19(1972) ,341 一 346。 

22. 参 见 Tnformation Processing Letters 2(1973) ,127 一 128 。 

23. 这 些 合并 可 以 通过 二 叉 树 表示 ,这 二 又 树 的 所 有 外 节点 在 级 | lg N | 和 
illg N | 上 。 因 此 比较 的 极 大 次 数 是 有 N 个 外 节点 的 一 棵 二 叉 树 的 极 小 外 路 径 长 
度 , 即 等 式 5.3.1-(34) 减 去 N 一 1, 因 为 f(m,n)-= m+n1 给 出 极 大 值 ,而 且 有 
六 -1 次 合并 。( 也 参见 等 式 5.4.9-(1)。) 

P. Flaiolet 和 M.Golin 在 Acta Informatica 31 (1994) ,679 一 696 已 经 给 出 借助 于 
Mellin 转换 来 研究 这 样 的 递 推 式 的 渐 近 性 质 的 通用 技术 ;特别 是 ,他 们 证 明 , 比 较 的 
平均 次 数 是 N lg N-bON+s(lgN)N+O() ,方差 是 之 .345N ,其 中 6 是 周期 为 1 
和 均值 为 0 的 一 个 连续 函数 ， 

1 1 


四 » 之 网 D7 i | 加 
ln 2 FS (7 (和 2m 
1.2481S 20420 99653 84890 29565 64329 53240 16127 + 
当 N~co 时 通过 一 个 正 态 分 布 可 以 很 好 地 逼近 比较 的 总 数 ;参见 黄 显 贵 和 M. 
Cramer 在 Random Structures and Algorithms 8 (1996) ,319 一 336; 11(1997) ,81 一 96 


上 的 补充 分 析 。 
S.2.S 小 季 


1. 人 否 。 因 为 基数 排序 全 然 无 效 ,除非 在 头 一 次 扫描 之 后 ,分 布 排序 是 稳定 的 。 
(但 如 同 正文 最 后 一 段 中 所 提议 的 那样 ,所 提出 的 分 布 排序 可 用 于 首先 最 高 位 数字 
的 基数 排序 方法 中 ,并 且 推 广 基数 交换 。) 

2. 恰 恰 相 反 , 它 是 “ 反 稳定 的 ”; 具 有 相同 键 码 的 元 素 以 相反 的 次 序 出 现 , 因 为 头 
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5.2.5 小 节 


一 遍 扫 描 从 RN 到 R| 遍历 诸 记 录 。( 这 证 明 是 方便 的 ,因为 程序 R 的 行 28 和 行 20 
把 A 同 0 等 置 起 来 ;但 是 当然 没有 必要 向 后 进行 头 一 次 扫描 。) 

3. 如 果 堆 0 非 空 , 则 BOTML0j] 已 经 指向 头 一 个 元 素 ; 如 果 它 是 空 的 , 则 我 们 置 P 
<-LOC(BOTM[0]) 而 且 过 后 使 LINK(P) 指 同 尖 一 个 非 空 堆 的 压 。 

4. 当 剩 下 偶数 次 扫描 时 ,首先 取 堆 0( 由 顶 到 底 ) ,接着 取 堆 1,…, 堆 (M -1); 这 个 
结果 相对 于 至 今 所 考虑 的 数字 来 说 将 是 有 序 的 。 当 剩 下 奇数 次 扫描 时 ,首先 取 第 
M 一 1 堆 , 然 后 取 第 M -2 堆 ,…, 第 0 堆 ; 这 个 结果 相对 于 至 今 所 考察 的 数字 来 说 将 是 
逆序 的 。( 这 个 规则 显然 是 由 E. H. Friend 首先 提出 的 [JACM 3(1956) ,156, 165 一 
166] 。) 


5. 把 行 04 改变 成 为 “ENT3 7” 并 把 表 R3SW 和 R5SW 改变 成 为 


R3SW LD2 KEY,1(1:1) 
LD2 KEY ,1(2:2) 
LD2 KEY,1(3:3) 
LD2 KEY ,1(4:4) 
LD2 KEY,1(5:5) 
LD2 INPUT,1(1:1) 
LD2 INPUT,1(2.;2) 
LD2 INPUT,1(3.:3) 
R5SW LD1 INPUT,1(LINK) 
: 再 重复 上 一 行 6 次 ) 
DEC1 1 | 


通过 在 每 处 把 “3” 改 成 “8”, 可 以 求 得 新 的 运行 时 间 ; 对 于 上 =8, 它 总 计 为 (11p-1)N 
+16pM+12p—4E+2,。 

6.(a) 考 虑 放置 第 N+1 个 元 素 。 递 推 式 

k+l AM 一 
PM(N+1)k = MM PMN(K+1) + M PMNE 
等 价 于 所 述 的 公式 。(b) 通 过 对 n 用 归纳 法 可 证 第 n 次 导数 满足 gWN ,1)(z)= 
(1-n/M)gW(z)+((1 一 z)/M)gNW (zx)。 置 z=1, 我 们 求 出 g 铝 (1)= (1 一 
/MD) ”AM ,因为 gMmo(z2)= zM。 因 此 mean( guv)= (1— 1/M)*M, var(gun)= (1— 
2/1M)*M(M-1)+(1-1M)M-(1-1/M)"M’。 

(注意 ,程序 R 中 5 的 生成 函数 是 gy、 (xz)?。) 

7. 设 R= 基数 排序 ,RX= 基数 交换 。 某 些 重要 的 类 似 性 和 差别 是 : RX 从 最 高 位 
数字 进行 到 最 低位 ,而 R 则 从 男 一 条 途径 进行 。 这 两 个 方法 都 通过 数字 检查 来 进行 排 
序 ,而 不 作 键 码 的 比较 。RX 总 有 M =2( 但 见习 题 1)。R 的 运行 时 间 几 乎 总 是 不 变 
的 ,而 RX 对 于 数字 的 分 布 是 敏感 的 。 在 两 种 情况 下 运行 的 时 间 都 是 O(CN log K ), 其 
中 KK 是 键 码 的 范围 ,但 RX 的 比例 常数 较 高 ; 男 一 方面 , 当 键 码 按 它们 的 前 导数 字 来 说 
是 均匀 分 布 时 ,无 论 K 的 大 小 如 何 ,RX 总 有 O(N log N) 的 平均 运行 时 间 。R 需要 链 
接 字 段 而 RX 在 “ 极 小 的 存储 ”下 运行 。R 的 内 循环 更 适合 于 “流水 线 ” 计 算 机 。 

8. 在 最 后 的 扫描 中 , 诸 堆 应 以 男 一 个 次 序 被 钓 在 一 起 ;例如 ,如 果 M = 256, 则 
堆 (10000000), 首先 来 到 ,然后 堆 (10000001),…, 堆 (11111111),, 堆 (00000000)，,， 
堆 (00000001),,…, 堆 (01111111),。 通 过 修改 算法 了 H, 或 (在 表 1 中 ) 通 过 在 最 后 一 
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次 扫描 时 改变 存储 分 配 策 略 , 即 可 更 容易 地 进行 挂钩 顺序 的 改变 。 

9. 如同 在 习题 5.2.2-33 中 那样 ,我 们 可 以 首先 把 负 的 键 码 同 正 的 键 码 分 开 ; 或 者 
我 们 可 以 在 头 一 次 扫描 时 把 键 码 改 成 补 码 记号 。 或 者 ,在 最 后 一 次 扫描 之 后 ,可 以 把 
正 键 码 同 负 键 码 分 开 ,颠倒 后 者 的 顺序 ,但 习题 5.2.2-33 的 方法 已 不 再 能 用 了 。 

11. 硅 没有 头 一 次 扫描 ,这 个 方法 仍 将 正确 地 进行 排序 ,因为 (碰巧 )503 已 在 
509 之 前 。 奋 没有 头 两 次 扫描 , 反 序 数 将 是 1+1+0+0+0+1+1+1+0+0=5。 

12. 在 步骤 M4( 习 题 5.2-12) 中 交换 R 同 R[P] 之 后 ,我 们 可 以 比较 天 同 
K,-_1。o 如 果 K, 较 小 , 则 把 它 同 K, ;,， K。_3，"…, 作 比较 ,直到 求 出 K, 宇 K; 为 止 。 
然后 置 (Rj; ;1 … ,R11, Re) 一 (Ri,R;411，,…,R,-1), 而 不 改变 LILNK 字段 。 设置 一 
个 人 为 的 键 码 Ko 很 方便 , 它 委 在 这 个 文件 左边 的 所 有 其 它 键 码 。 

14. 如果 在 习题 5.1.3-20 的 意义 下 ,卡片 原来 的 排列 需要 该 次 ,而 且 如 果 对 
于 每 次 扫描 我 们 使 用 mm; 个 堆 , 则 必须 至 少 进行 [log,& | 次 扫描 。( 考 虑 从 一 个 已 排 
好 序 的 卡片 组 到 原来 的 卡片 组 的 逆 过 程 ;每 次 扫描 至 多 使 读 的 次 数 增加 mx 的 一 个 
因子 。) 给 定 的 排列 需要 4 次 递增 的 读 ,10 次 递减 的 读 ; 所 以 递减 的 次 序 需 要 具有 两 
个 堆 的 4 次 扫描 或 者 具有 三 个 堆 的 3 次 扫描 。 

反之 ,这 个 最 优 的 扫描 次 数 可 被 达到 ;根据 卡片 是 在 第 几 次 被 读 的 ,重新 把 它们 
编写 成 为 0 到 & 一 1, 并 且 使 用 一 个 基数 排序 (在 基数 m 下 最 低位 数字 先 开 头 )。 
[参见 Martin Gardner 的 Sixth Book of Mathematical Games (三 洲 市 :W.H. Freeman,， 
1971) ,111 一 112。] 

15. 设 有 次 读 和 m 个 堆 。 每 次 扫描 时 次 序 都 被 颠倒 ;如 果 按 一 个 次 序 读 
次 , 则 在 相反 的 次 序 下 读 的 次 数 为 n +1 一 k&。 极 小 扫描 次 数 或 者 是 大 于 等 于 log,,& 
的 最 小 偶数 ,或 者 是 大 于 等 于 log, (n +1 一 上 ) 的 最 小 奇数 。( 反 向 进行 时 ,在 一 次 扫 
描 之 后 顶 多 有 m 次 递减 的 读 , 在 两 次 扫描 之 后 , 顶 多 有 m“ 次 递增 的 读 , 等 等 。) 这 
个 例子 可 在 min(2,5)=2 次 扫描 中 被 排 成 递增 次 序 ,在 min(3,4)=3 次 扫描 中 被 排 
成 递减 次 序 ,同时 仅 使 用 两 个 堆 。 

16 .假定 每 个 串 之 后 跟着 一 个 特殊 的 空 字 符 , 它 小 于 字母 表 的 任何 字母 。 由 在 一 
个 数据 块 区 中 链接 在 一 起 的 所 有 串 开 始 ,实施 一 个 具体 左 至 右 的 基数 排序 。 然 后 对 于 
&=1,2… 修 改 包 含 一 个 以 上 不 同 串 的 每 个 块 区 ,办 法 是 根据 每 个 串 的 第 & 个 字母 ,把 
它 分 成 为 一 些 子 块 区 ,同时 按照 它们 已 被 考察 的 前 缀 ,使 这 些 块 区 保持 有 序 。 当 一 个 
块 区 仅 有 一 个 项 时 ,或 者 当 它 的 第 & 个 字符 为 全 空 (因而 它 的 键 码 相等 ) ,我 们 可 以 安 
排 避免 再 对 它 进 行 考察 。[R. Paige 和 R.E. Tarjan ,SICOMP 16 (1987) ,973 一 989， 
2。| 这 个 过 程 实质 上 和 在 6.3 市 中 构造 一 个 检索 结构 是 一 样 的 。Aho, Hopcroft 和 
Ullman 的 The Design and Analysis of Computer Algorithms (Addison-Wesley,1974) ,79 一 84 
对 这 个 问题 给 出 了 以 从 右 到 左 的 基数 排序 为 基础 的 一 个 更 简单 但 不 大 有 效 的 算法 。 
正文 中 所 引 的 Mcllroy, Bostic 和 Mcllroy 的 方法 ,更 实用 和 更 快 。 

17. MacLaren 的 方法 加 快 了 第 二 级 ,但 在 顶层 一 级 不 能 使 用 它 , 因 为 它 不 能 计 
算数 Ni 。 
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5.3.1 小 节 


18 .首先 我 们 证 明 提 示 : 设 ps = ODSAGz)dz 是 当 有 CN 个 箱 时 一 个 键 码 
沙 和 信箱 人 为 分 布 诸 记 录 所 需 时 间 是 O(N) ,而 在 分 布 之 后 剩 下 的 反 序 的 平 
均 个 数 为 二 忆 全 1 到 人 慨 (G-m 人 = 冯 Ri 2 js Di peB1C, 
因 为 ,BIN. 

现在 考虑 两 级 分 布 ,是 有 cN 个 顶层 一 级 的 箱子 ,并 设 b= sup{ f(x)|k/cN<z 
之 (k&+1)/cN1。 于 是 平均 的 总 共 运 行 时间 为 O(N) 加 上 从 0 Ti, 其 中 Th 是 Ma- 
cLaren 方法 对 于 有 密度 函数 f(x)= f((k&+ x)/cN)/cNps 的 NN 个 键 码 进行 排序 
所 需要 的 平均 时 间 。 通 过 这 个 提示 ,我 们 有 到 = 下 O(baNe/cNpi) 因 为 f(x ) 是 以 
balcN 为 限 的。 但 EN = Npi, 所 以 T= 0 )。 而 且 当 N->co 时 ,由 黎 曼 可 积 
性 的 定义 ,我 们 有 0'b>N | f(x)dr= 


S.3.1 小 地 





C34 Ca3 


外 部 路 径 长 度 再 次 是 112 (最 优 的 )。 
2 .在 习题 5.2.4-14 的 记号 下 


L(n)— B(n)= Sl + kom1)2%— (elt+1)2%)+2°! 一 24 = 


24 -24- 2 (el- est+2 -kk)2%> 


Fe1 一 (2°1 1 十 ，…。 十 Fe t+] 十 22 ) 之 0 
当 且 仅 当 对 于 某 个 >j 宇 0 有 n=2 -2 时 ,等 式 成 立 。[ 当 合并 是 像 在 习题 5.2. 
4-23 中 那样 "由 项 向 下 "完成 时 ,比较 的 极 大 次 数 是 B(n)j]。 
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习题 答案 


3. 当 n>0 时 ,最 小 键 码 恰恰 出 现 有 次 的 结果 数 为 ” Jps se 于 是 ,对 于 n>0， 


2P = 习 | 7 jP，-， 而 且 由 等 式 1.2.9-(10) ,我 们 有 2P(z)=esP(z)+1。 





另 一 个 证 明 从 这 样 一 个 事实 得 出 : 即 P = 台 ,。 ”| 1 由 于 ”| 是 把 ， 个 元 


素 划 分 成 个 非 空 部 分 的 方式 数 , 而 且 这 些 部 分 可 以 以 &! 种 方式 排列 。 于 是 ,由 等 
式 1.2.9-(23), 35, so0P,z"/n!l= Doe -1)=1/(2-e’),。 

还 有 另 一 个 证 明 ,或 许 最 有 趣 , 它 得 自 于 :如 果 我 们 以 一 种 稳定 的 方式 ,把 这 些 
元 素 排 成 序列 ,使 得 当 且 仅 当 K;<K; 或 (K;= K,; 且 i<j) 时 K; 居于 K, 之 前 , 即 可 
得 之 。 在 所 有 P; 个 结果 当中 ,如 果 排 列 a,…aj 包含 & 个 升 高 , 则 一 个 给 定 的 安排 
K。…K。 现在 恰恰 出 现 2 次 ;因此 P, 可 以 借助 于 欧 拉 数 P, = 忆 4《? 7) 2 来 表达 。 
当 z=2 时 等 式 5.1.3-(20) 确 立 了 所 求 的 结果 。 

这 个 生成 函数 是 由 A. Cayley[Phil Mag. (4) 18 (1859),374 一 378] 在 枚 举 一 个 不 精 
确定 义 的 树 类 时 得 到 的 。 也 见 P. A. MacMahon ,Proc. London Math. Soc. 22 (1891),341 
~ 344;]. Jouchard ,Ann. Soc. Sci, Bruxelles 53 (1933),21~31,。 以 及 O. A. Gross,AMM 69 
(1962) ,4 一 8;Gross 给 出 了 有 趣 的 公式 P, = > ,1k"/21'*,n 之 1。 

4. 表 示 


2P(z)= 3(1 -icot(i(z -In2)/2)) = 


二 
2 z— ln2 £1 z— ln2— 2xik z— ln2+2xik 








产生 一 个 收敛 的 级 数 Pujzl= 广 (In 2) "+ DR((ln2+2nik) "1!)。 
3 . 
(13) 人 


6.S (n) 宇 S(tn), 因 为 诸 键 人 码 可 以 全 都 不 同 ; 于 是 我 们 必须 证 明 S (7 ) 迄 
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S(n)。 给 定 一 个 在 不 同 的 键 码 上 花费 S(n) 步 的 排序 算法 ,我 们 可 以 通过 定义 = 分 
支 恒 同 于 < 之 分 支 来 消除 元 余 性 ,从 而 构造 一 般 情况 的 排序 算法 。 当 出 现 一 个 外 部 市 
点 时 ,我们 知道 所 有 的 相等 关系 ,因为 有 K。 三 K。 二 … 夺 K。 ,而 且 对 1Si<n 已 经 
明显 地 比较 过 K。: K。 。 

M. Paterson 发 现 , 如 果 键 码 的 多 重 集 是 (n1,…,n;), 则 比较 的 次 数 可 减少 成 为 
7 lg 7 一 2 lg n;+ O(n); 见 SICOMP 5 (1976),2。 通过 如 Munro 和 Raman 在 
Lecture Notes in Comp. Sci. , 519 (1991) ,473 一 480 所 建议 的 那样 修改 堆 排 序 来 处 
理 相等 的 键 码 , 则 不 用 很 多 的 辅助 存储 就 几乎 能 达到 这 个 下 限 了。 

7. 见 图 A-1。 比 较 的 平均 次 数 是 

3 


Co 


8. 见 图 A-2。 比 较 的 平均 次 数 是 3 让 。 

9 .如果 所 有 的 键 码 是 相等 的 , 则 我 们 至 少 需要 n -1 次 比较 才能 发 现 所 有 键 码 
相等 这 一 事实 。 反 之 , -1 次 就 足够 了 ,因为 在 把 Ki 同 所 有 其 它 键 码 作 了 比较 之 
后 ,我 们 总 能 导出 最 后 的 排序 。 

10. 设 f(n) 为 所 求 的 函数 ,并 设 g(n) 是 当 k&>>0 和 元 素 中 恰 有 个 元 素 有 已 
知 值 (0 或 1 时), 为 对 n+ 个 元 素 进 行 排序 所 需 平 均 比较 次 数 。 于 是 , (0) = 


f(D)=g(0) =0,g(1) -17(n)=1+Ff(n-1)+3g(n-2),g(n)=1+ 


min(g(n—1),Fg(n—1)+3g(n -2)) =1+F8(n 本 + Fg(n 站 
n 宇 2,( 因 此 最 好 的 策略 是 每 当 可 能 时 ,就 比较 两 个 未 知 的 元 素 )。 由 此 得 出 ,对 于 
n 宇 2,f(n)—-g(n)= 3(f ln -1)--g(n 一 1)), 以 及 对 于 n 宇 0,g(n)= 


了 (+ 本 (1-( -到 | 让 .因此 答案 是 对 于 n 之 1 


3 
2 EE i 
0 | - 3 
(这 个 精确 公式 可 以 同 信息 论 下 限 log3(2” 一 1) 守 0.6309n 作 比 较 。) 

11. 二 又 插 入 证 明 , 对 于 nn 宇 m,S,(n) 和 三 B(m)+(n-m)[lg(m +1)|。 为 一 
方面 ,Su (nn) 源 [lg 允 人 ”jk!, 而 且 这 渐 近 地 等 于 nlgew tt O(((m = 1) ms 
(参见 等 式 1.2.6 一 (S3) )。 

12. (a) 如 果 没 有 宛 余 的 比较 , 则 当 实 际 上 相等 的 键 码 第 一 次 被 比较 时 ,我 们 可 
以 任意 地 指定 一 个 次 序 ,因为 不 能 从 以 前 所 做 的 比较 中 导出 次 序 。(b) 假 定 这 株 树 


对 每 个 0 和 1 的 序列 强 排序 ;我 们 将 证 明 , 它 对 11,2,…,n| 的 每 个 排列 也 强 排序 。 
假若 不 然 ,于 是 有 一 个 排列 ,对 于 这 个 排列 , 它 宣称 K。 三 K。 三 … 三 K。, 然 而 事实 
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上 对 于 汞 个 i, 有 K。>K。,。 用 0 代替 所 有 的 < 天。 的 元 素 ,用 1 代替 所 有 宇 K, 的 
元 素 ;由 假设 , 当 我 们 采取 导致 K, 全 KK, 二 … 全 KK。 的 路 径 时 ,这 个 方法 又 应 该 能 进 
行 排序 ,矛盾 。 

13. 如果 ”为 偶数 , 则 FOz)-FGz-l)=1+FGLn2)=-FGLn2 -1) ,所 以 
我 们 必须 证 明 zw ii<Lza12 委 ro 由 于 wi_|=| wi/2j, 这 是 明显 的 。 如 果 nn 为 奇 
数 , 则 F(x) 一 F(n 一 1)== Gn/21) 一 G(xn/2.),; 所 以 我 们 必须 证 明 六 | <「Fn/21] 志 
ti ;由 于 ty -1 二 | wi/2|, 这 是 显然 的 。 


3 
14. 由 习题 1.2.4-42, 和 数 为 | lg 3 |- (wit + wj), 其 中 ww<n 志 
个 和 煞 且 、 3 | 
Ti+1o 后 一 个 和 数 是 w+1 -Lj7/2]—1。 因此 F(2) 可 表达 成 7 lg 本 7 
[lg (6n)| | 2 6 | ， 、 av 、 
| 206 6m)1J31+ 上当 lg(6n) (以 及 许多 其 它 方式 )， 
3 
15. 如 果 | gn -=Ie [3 
4 
O(log n)。 如 果 [lg n1=lg n+0, 则 B(n)= nlg n—-nt+n(0+1-2)+ O(log n), 
[注意 lg n!= nlg nn 一 n/(ln 2)+ O(log n);l1/(n 2) 汪 :1.443;3 一 lg 3S1.415, | 
17.p < av 和 pi 的 情况 数 为 qq 


oi Ns) 


+ 出 F(n)=nlgn- (3-lg3)n+n(O+1-20)+ 


而 qj 之 6, <<aj41 的 情况 数 是 
一 99+7M 一 7 一 + 
| 7 一 9 | 9 一 工 

18. 否 ,因为 我 们 仅仅 考虑 在 每 个 比较 之 下 树 的 效率 较 低 的 分 支 。 更 有 效 的 分 
文 之 一 可 以 证 明 是 更 难于 处 理 的 。 

20. 设 工 是 出 现 有 外 节点 的 极 大 的 级 ,而 设 / 是 极 小 的 这 样 的 级 。 如 果 工 宇 1/ 
+2, 则 我 们 可 以 从 级 工 撤销 两 个 节点 ,并 把 它们 放置 在 级 / 处 的 一 个 节点 之 下 ;这 
使 外 部 路 径 长 度 减 少 L+2L-(EL-1+2(0+1))= 工 -7-1>1。 反 之 ,如 果 工 去/ 
+1, 就 设 在 级 !/ 上 有 & 个 外 节点 而 在 级 1+1 上 有 NN 一 个 外 节点 ,这 里 0<k 过 N。 
由 习题 2.3.4.5-3,k2 +(N-R)2 “1=1; 因 此 ,N+ 有 k=2‘+1,。 不 等 式 2: 过 N< 
2 ”现在 表明 1 = [lgN ;这 定义 了 并 给 出 外 部 路 径 长 度 (34)。 

21. 设 r(z) 是 x 的 右 子 树 的 根 。 所 有 子 树 有 极 小 的 高 度 当 上 且 仅 当 对 于 所 有 的 
rz,llgt(i(z)) |<ilg t(z)|—-1 和 [lg i(r(xz))]| 二 [lg 1(x)1-1。 头 一 个 条 件 等 价 
于 2i(1(z)) 一 tz) 二 287W)1- jy(xz), 而 第 二 个 条 件 等 价 于 i(x) 一 21(1(x)) 壹 
2 le (2) 1 jy (7x), 
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习题 答案 


22. 由 习题 20, 四 个 条 件 Llg i (li(zx))j,Llg 1t(r(zxz))| 宇 [lg 1:(x)1-1 和 
[lg i(i(x))l|,l lg ti(r(z)) | 二 [lg t(x)1-1 是 必要 和 充分 的 。 如 同 在 习题 21 中 那 
样 论证 ,我 们 可 以 证 明 它们 等 价 于 所 述 条 件 。[ Martin Sandelius,AMM 68 (1961)， 
133 一 144]。 关 于 它 的 一 个 推广 见习 题 33。 

23. 多 重 表 插入 假设 , 诸 键 码 被 均匀 地 分 布 在 一 个 已 知 的 范围 内 ,所 以 它 不 是 满 
足 本 方 中 上 所 考虑 的 限制 的 “纯粹 比较 ”的 方法 。 

24. 首 先 如 同 对 五 个 元 素 排 序 那 样 进行 ,直到 进行 了 五 次 比较 ,我 们 达到 (6) 中 
的 配置 之 一 之 后 为 止 。 在 头 三 种 情况 下 ,再 用 两 次 比较 完成 对 五 个 元 素 的 排序 , 然 
后 插入 第 六 个 元 素 f。 在 其 它 情况 下 ,首先 比较 f:5, 把 ff 插入 到 主 链 中 ,然后 插入 
co [Picard,Théorie des Questionnaires ,pp.116,| 

25. 由 于 N=7!=5040 和 gqg=13, 在 级 12 上 将 有 8192 一 5040=3052 个 外 节点 ， 
且 在 级 13 个 有 5040 一 3152=1888 个 外 节点 。 


26.L .Kolléar[Lecture Notes in Comp. Sci. ,233(1986),449 一 457 | 已 经 介绍 了 一 
个 杰出 的 方法 来 论证 ,这 个 最 优 的 方法 有 62416 的 外 部 路 径 长 度 。 
27. 





是 用 两 次 比较 识别 两 个 最 经 常 的 排列 的 惟一 方式 ,不 过 头 一 次 比较 产生 .27/.73 的 
分 裂 。 

28.Lun Kwan 已 经 构造 了 一 个 其 平均 运行 时 间 为 38.92$x 的 873 行 的 程序 。 
它 的 极 大 运行 时 间 为 43u ;后 者 看 来 是 最 优 的 ,因为 它 是 7 次 比较 ,7 次 测试 ,6 次 装 
入 ,5 次 存储 的 时 间 。 

29. 我 们 必须 至 少 作 S(n) 次 比较 ,因为 不 可 能 知道 一 个 排列 是 侦 的 还 是 奇 的 ， 
除非 已 经 作 了 足够 的 比较 来 惟一 地 确定 它 。 因 为 我 们 可 以 假定 已 经 作 了 足够 的 比 
较 ,来 把 问题 缩小 到 取决 于 a; 是 否 小 于 a;( 对 于 某 个 i 和 ;) 的 两 种 可 能 性 ;这 两 种 
可 能 性 之 一 是 侦 的 , 另 一 种 是 奇 的 。[ 男 一 方面 ,对 于 这 个 问题 有 一 个 O(n ) 算 法 ， 
这 个 算法 简单 地 计算 轮换 的 数目 ,而 且 全 然 不 使 用 比较 ;见习 题 5.2.2-2,] 

30. 由 高 度 为 SC(2) 的 最 优 比较 树 开 始 , 从 项 到 底 ,重复 地 在 标号 为 :7 的 节点 
的 右 子 树 中 交换 i<>;。 把 这 个 结果 解释 为 一 株 比 较 -交换 树 ,每 个 终端 节点 定义 一 
个 惟一 的 排列 ,这 个 排列 可 以 通过 至 多 nn 一 1 次 另外 的 比较 -交换 来 进行 排序 (由 习 
题 5.2.2-2)。 

[ 比较 -交换 树 的 思想 是 由 T. N. Hibbard 给 出 的 。] 
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31. 至 少 需要 8 个 ,因为 高 度 为 7 的 每 一 株 例 在 4 步 之 后 ,将 在 茶 个 分 文 (或 它 


的 对 偶 ) 产 生 配 置 ,其 中 < 和 关 1。 这 个 配置 不 能 用 3 次 为 外 的 比较 /交换 操作 来 完成 排 
序 。 为 一 方面 ,下 列 树 达 到 了 所 希望 的 界 ( 或 许 也 是 极 小 的 平均 比较 /交换 次 数 ): 





33. 可 应 用 于 阶 为 x 和 分 辩 率 为 1 的 任何 树 的 简单 操作 ,也 可 被 应 用 于 产生 男 
一 株 这 样 的 树 , 即 其 加 权 路 径 长 度 不 很 大 ,其 中 对 于 某 个 &, 所 有 外 节点 位 于 级 & 和 
&-1 中 ,而 且 至 多 有 一 个 外 节点 是 非 整 数 。 而 且 ,如果 非 整数 布点 存在 , 它 位 于 级 丰 
上 。 任何 这 样 的 树 的 加 权 路 径 长 度 都 有 所 述 的 值 ,因此 这 必定 是 极 小 的 。 反 之 ,如 
果 在 任何 实 值 查找 树 中 (iv) 和 (v) 成 立 , 则 通过 归纳 法 可 能 证 明 , 加 权 路 径 长 度 有 所 
述 的 值 ,因为 借助 于 根 的 两 个 子 树 的 加 权 路 径 长 度 , 存 在 有 一 株 树 的 加 权 路 径 长 度 
的 简单 公式 。 

36. LMat Zametki 4 (1968) ,511 一 518」 关于 这 个 问题 的 进展 的 综述 ,以 及 关于 
我 们 总 可 以 得 到 的 下 式 


1 < T(GI)/T(G,) Rs OO 


的 一 个 证 明 ,其 中 稼 数 0 略 小 于 8/3 ,参见 S. Felsner 和 W. 于. Trotter,Combinatorics, 
Paul Erdos is Eighty 1 (1993),145~157。 


5.3.2 小 和 
l.S(m+n)S(m)+S(n)+M(m,n)o 
2 .在 对 称 次 序 下 为 第 个 的 内 节点 对 应 于 比较 Al:B。 


3. 策 略 B(1,7) 不 比 策略 A(1,l+1) 更 好 ,而 策略 B'(1,7) 不 比 A'(1,l/ 一 1) 更 
好 ;因此 我 们 必须 解 递 推 式 


和 


.M.(1,n)= ,Pin max( max ( ] +.M.(1,7 一 1)), max (1 +.M.(l1l,n—7))) 
,Nn 宇 1;.M.(1,0)=0 

不 难 验 证 [lg(n +1) | 满足 这 个 递 推 式 。 

4. 否 。[C.Christen,FOCS 19 (1978) ,2$9 一 266 ] 

6. 当 1j=i+l 时 ,除去 ;i 委 2 的 情况 外 ,可 以 使 用 策略 A (ii+1l)。 而 当 7 之 ， 
+2 时 ,我 们 可 以 使 用 策略 A(i,i+2)。 

7. 为 了 在 nn 个 其 它 元 素 当 中 插入 k+ m 个 元 素 , 可 独立 地 插入 上 上 个 元 素 及 m 
个 元 素 。( 当 有 和 m 很 大 时 ,本 过 程 尚 可 改进 ,见习 题 19)。 

8,9. 在 下 列 图 式 中 ,i:j 表示 比较 A;: B;, Mj; 表示 在 M(i,j) 步 内 把 元 素 i 同 元 
素 j 合并 ,而 A 表示 在 三 步 内 将 型 式 。Z。 或 疏 。 排序 。 
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10. 
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11. 如 同 在 提示 中 那样 , 设 n= g,。 我 们 可 以 假定 : 宇 6。 不 失 一 般 性 ,可 设 A,: 
B; 为 头 一 次 比较 。 如 果 j > g,_1, 则 结果 A;< B; 将 需要 宇 t 个 另 加 的 步骤 。 如 果 ; 
入 8 -1, 则 结果 A,< Bi 将 不 成 问题 ,所 以 仅仅 需要 研究 A, > B; 的 情况 ,而 且 当 j= 
& -1 时 我 们 得 到 最 多 的 信息 。 如 果 1 =2k +1, 则 可 能 要 把 A, 司 同 >Bs 的 于 一 8 1 


=2“ 个 元 素 合 并 在 一 起 ,而 把 A; 同 g，; 个 其 它 元 素 合 并 在 一 起 ， 但 这 文 要 求 率 十 
(k++1)=t 个 为 外 的 步骤 。 男 一 方面 ,如 果 n= g, 一 1, 则 我 们 可 以 把 A, 同 2*-1-1 
个 元 素 合 并 在 一 起 ,然后 在 (一 1) + (+1) 个 另外 的 步骤 内 ,把 A; 同 ”个 元 素 合 
并 在 一 起 ,因此 M(2,g, 一 1) 志 1。 

t 二 2k 的 情况 要 困难 得 多 ;注意 g, -- g， 1 这 2 。 在 A, > B。 之 后 ,假设 我 们 
比较 A1:B;。 如 果 ;>>2*"!, 则 结果 A1< B， 要 求 上 + (一) 个 另外 的 比较 ( 太 多 )。 
如 果 j 夺 2, 则 我 们 可 以 如 同 以 前 一 样 论证 ;=2*-! 给 出 最 多 的 信息 。 在 A > 
B2*-! 之 后 ,下 一 个 同 A1 的 比较 也 可 以 同 Bx-1, 2 进行 ,然后 同 2342424243 比 ; 
因为 2 ”+2 +2 “>g, 1, 我 们 就 剩 下 把 {A1,A2| 同 n 一 (24 1!+24 ?+24-3) 
个 元 素 合 并 在 一 起 了 。 当 然 ,我 们 不 必 马 上 进行 同 A| 的 任何 比较 ;而 代 之 以 比较 
42:B,1-ie 如 果 7 委 2 , 则 考虑 A,< B, ;1- ;的 情况 ,如 果 7>24-3, 则 我 们 考虑 
AsB,+1-;。 后 一 种 情况 要 求 至 少 再 有 (&-2)+(&+1) 个 步 又。 继续 进行 ,我 们 
发 现 仅 有 的 可 能 有 成 果 的 路 线 是 42 > B, ,» A < B11i-2 3, Ai1> B11,Al> 
Byatt A1 室 B2142*-?424-3, 但 是 在 这 种 情况 下 我 们 恰 恰 剩 下 了 g,_ ;个 元 素 ! 反 
之 ,如果 n =gi 一 1, 则 这 路 线 是 行 得 通 的 。[Acta Informatica (1971),145~158, | 

12. 头 一 个 比较 必须 是 对 于 1 三 上 二 i,a: Xi 或 者 (对 称 地 ) 对 于 1 委 & 雪 ) 8: 

X,-。 在 前 一 种 情况 下 ,如果 a < X 要 我 们 继续 做 R, (k 一 1,j) 次 另外 的 比较 ; 结 
条 a >> Xi 要 我 们 继续 解决 c<<p8, YI<…<Y ea<Yy ep>yY ;的 排序 问 
题 ,其 中 Y, = X,_,。 

13. [Computers in Number Theory (New York: Academic Press, 1971),263~ 
269 。] 

14. LSICOMP 9 (1980) ,298 一 320。 对 于 M(4,n) 的 完全 的 解 不 久之 后 就 由 了 J. 
Schulte Monting 得 到 了 。 他 还 猜测 对 于 M(5,n) 的 解 , 在 Theor . 14 (1981) ,19 一 
37 上。] 

15. 将 mx 加 倍 直到 它 超过 nn 为 止 。 这 和 需要 [lg(n/m)j]+1 次 加 倍 。 

16. 当 它 是 一 个 以 上 时 ,为 除去 (2,8),(3,6),(3,8)(3,10),(4,8),(4,10),(5, 
9),(5,10) 之 外 的 所 有 的 (xm ,nn )。 


十 
17. 假 定 mw 过 nn 且 设 1=Ilg(nfm)- 9。 则 Ie(” ">I mr lg ml mlg n 
mm 


- (mlg mm+1)=m(t+0)+m-1=H(m,n)+ Om -|2m lH(m,n)+0, 
-2m 宇 H(m,n) 一 mo。( 对 于 1 三 km, 不 等 式 mm! 过 m21-”" 由 kh(m 一 k) 三 
”033 ， 
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(mm/2)“ 推 出 。) 
19. 首 先 合并 | Al,…,A, | 和 |1B,,B4,… ,B,Jj|。 然 后 对 于 1 和; 二 | n/21, 我 们 必 
须 把 诸 奇 元 素 Bs, _ 1 插入 到 诸 A 的 a 当中 ,其 中 a1+ azs+… 十 arjjz] 信 mm。 后 一 操作 
对 于 每 个 i 至 多 需要 au; 个 操作 ,所 以 至 多 mx 次 另外 的 比较 就 可 完成 这 个 工作 。 
20. 应 用 (12)。 
22.R. Michael Tanner[SICOMP 7 (1978),18 一 38j] 已 经 证 明 , 一 个 “分 离 插 入 ” 


十 ~ 
算法 平均 至 多 作 1.06 el” " ) 次 比较 。 [L .KollarlComputers and Artificial Int . 
m 


5 (1986),335 一 344] 已 经 研究 了 算法 H 的 平均 特性 。 

23. 对手 保持 一 个 其 元 素 x; 开 始 时 全 为 1 的 nxn 算 阵 XX。 当 这 个 算法 问 及 是 
否 A; = B 时 ,对 手 置 zj 成 为 0。 回 答 “ 否 ”, 除 非 X 的 永久 式 刚刚 变 成 0 了。 在 后 
一 情况 下 ,对手 回 答 “ 是 "(这 是 必须 的 ,免得 此 算法 立即 结束 !), 并 从 X 删 去 行 i 和 
列 j; 得 到 的 (mn 一 1) x (n 一 1) 和 矩阵 将 有 一 个 非 0 的 永久 式 。 对 手 继续 照 此 办 理 , 百 
到 只 剩 下 0x0 和 天 阵 。 

如 果 要 变 成 0, 我们 可 以 重新 安排 诸 行 与 列 使 得 i=j=1 并 且 使 此 和 矩阵 的 对 角 
线 上 全 都 为 1, 但 当 zx|/ 一 1 时 它 的 永久 式 仍 变 成 0; 这 时 对 于 所 有 的 >>1 ,我 们 必定 
有 ziezil=0。 由 此 得 出 , 当 对 手 第 一 次 回答 “是 "时 至 少 已 删 去 ”个 0 ,而 当 第 二 次 
回答 “是 ”时 已 删 去 n 一 1 个 0, 等 等 。 仪 仅 在 对 非 元 余 的 问题 接受 了 nn 个 “是 ”的 回 
答 之 后 ,以 及 在 提出 了 至 少 n+(2 -1)+…+1 个 问题 之 后 ,这 个 算法 才 会 结束 
UACM 19 (1972) ,649 一 6$39]。 类 似 的 论证 表明 , 当 |A1 = 和 2 委 2=| 吕 | 时 需要 和 十 
(2 一 1)+…+(2 一 和 ++1) 个 问题 才能 确定 A 和 SB。 

24. 粗 糙 的 预备 性 合并 需要 至 多 mr + gq 一 1 次 比较 ,而 且 随 继 的 插入 每 个 至 多 需 
要 了 上 上 次。 这 些 上 限 不 可 能 减少 。 因 此 极 大 值 和 算法 再 的 一 样 (参见 (19) )。 

25. 一 般 问题 和 其 中 每 个 zj 为 0 或 1 且 z= 地 的 特殊 情况 一 样 困难 。 于 是 每 个 
比较 等 价 于 考察 二 进位 x; ,而 且 我 们 要 通过 考察 最 少 的 二 进位 来 确定 整个 矩阵 。 
如 果 我 们 置 x;; = [A; > B+:1-;j, 则 任何 合并 问题 (1) 对 应 于 这 样 一 个 0-1 矩阵。 
(N.Linial 和 M. Saks, 在 J. Algorithms 6 (198$) ,86 一 103 上 把 这 个 发 现 归功 于 J. 
Shearer ,一 个 类 似 的 结果 把 查找 同 关于 任何 偏 序 的 排序 关连 起 来 。) 
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1. 游 戏 者 11 失利 于 0$ ,所 以 知道 13 比 05,11,12 要 老 。 
2. 设 z 是 第 :个 最 大 者 , 且 S 是 使 得 所 做 比较 不 足以 证 明 z<y 或 >< zz 的 所 
有 元 素 y 的 集合 。 存 在 同 所 作 的 所 有 比较 相 一 致 的 一 些 排列 ,其 中 S 的 所 有 元 素 者 
小 于 xz; 因为 我 们 可 以 约定 S 的 所 有 元 素 都 小 于 x 并 把 得 到 的 偏 序 甬 和 人 到 一 个 线性 
序 当 中 。 类 似 地 存在 一 些 一 致 的 排列 ,其 中 S 的 所 有 元 素 都 大 于 x。 因 此 我 们 不 知 
道 z 的 秩 , 除 非 S 是 空 的 。 
634 ， 
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3 .一 个 对 手 可 以 认为 头 一 个 比较 的 失利 者 是 所 有 游戏 者 当中 最 差 的 。 

4. 假 设 最 大 的 上 -1 个 元 素 是 la ,…,w ii。 同 这 个 假定 相 一 致 ,为 确定 最 大 
的 t 个 元 素 的 比较 树 中 的 任何 通路 ,必定 至 少 包 括 n 一 :个 比较 以 确定 剩 下 的 n 一 +t 
+1 个 元 素 的 最 大 者 。 这 样 的 通路 至 少 有 nn -上 个 二 叉 选 择 点 ,所 以 它们 至 少 有 
2” :个 。 因 此 ,对 于 最 大 的 t 一 1 个 元 素 的 n' 种 选择 的 每 一 个 必定 出 现在 这 树 的 
至 少 2” :个 时 上 。 

5. 事 实 上 ,由 习题 2,W,(n) 人 Vi(n)+ S(t 一 1)。 

6. 命 g(l,l2 ,1b;)= 二 ym 一 2+[lg(2 和 541 二 2 二 十 2 )|, 并 假定 当 ++ 十 … 
+ 17; +2m 达 NN 时 ,f= gg。 我 们 将 证 明 , 当 名 ++ r+,+2m= 二 NN 时 ,f=g。 可 
以 假定 ji 宇 i; 宇 … 宇 1,,。 只 有 几 种 可 能 的 方法 来 作 头 一 次 比较 : 

策略 ALJ ,&), 对 于 J<&, 比 较 组 7 的 最 大 元 素 和 组 & 的 最 大 元 素 。 这 给 出 了 关 


系 
flli,s,ln)SS1+ g(li,™ ,l,l 十 1 0 一 
SC 之 
g(l1,* ,lL,) 
策略 B(j ,k), 对 于 所 >0, 比 较 组 7 的 最 大 元 素 同 组 & 的 小 元 素 之 一 。 这 给 出 
fll, ,ln,) 1+max(a,B)=1+B8 
其 中 


Q 一 glliy ,li lris sb) g(r ,lL,) 一 1 
B= SC 一 1 0) 之 0 一 

策略 C(j,k), 对 于 j 三 k,l;>>0,l>>0, 比 较 取 自 组 j 的 一 个 小 元 素 同 取 自 组 k 

的 一 个 小 元 素 。 对 应 的 关系 是 
大 CO 过 ] 十 ge 1 lr _ 1 11 ) 之 g(CL1 ,7,) 

通过 对 于 所 有 这 些 策略 取 右 端 极 小 值 , 即 求 出 FA …， 姑 ) 的 值 ; 因 此 
fi ybm) 之 g(Ui lm)o。 当 mr>1 时 ,策略 A(m 一 1,m) 表 明 六 2) 入 
g(l1，,… ,lm) ,因为 当 /1 之 … 之 1 时 ,g (l,l is ln ) = gl ,ln 1 1)。 
(证 明 : 当 M 是 2” 的 一 个 正 倍 数 时 ,对 于 0 三 a 三 5 有 [lg(M +2°)|=[lg(M+ 
25) |)。 当 m=1 时 ,使 用 策略 C(1,1)。 

LS. S. Kislitsyn 的 论文 确定 最 优 的 策略 A(m 一 1,m) 并 以 封闭 的 形式 求 出 
f(L,L,… ,7) 的 值 ;f 的 一 般 公 式 和 这 个 简化 了 的 证 明 是 Floyd 于 1970 年 发 现 的 。] 

7. 对 于 j1, 如 果 j+1 在 a 中, 则 cc 是 1 加 上 为 选择 a 的 次 一 个 最 大 元 素 所 
需要 的 比较 数 。 如 果 j++1 在 a 中 , 则 情况 类 似 ; 而 且 cl 总 为 0, 因 为 这 树 在 端点 处 
的 样子 总 是 相同 的 。 

8. 换 言 之 ,是 否 存在 一 株 具 有 ?2 个 外 节点 的 扩充 的 二 叉 树 ,使 得 从 根 到 :一 1 个 
最 远 的 内 市 点 的 距离 之 和 ,小 于 完备 的 二 又 树 的 相应 的 和 ? 回答 是 否 ,因为 不 难 证 

* 033 ， 
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明 ,对 于 所 有 的 a,y(a) 的 第 个 最 大 的 元 素 至 少 是 |lg(n 一 &)。 
9.( 所 有 路 径 都 使 用 六 次 比较 ,但 这 个 过 程 对 于 V3(5) 不 是 最 优 的 。) 





线 。) 
(2 
:9 对 称 的 
:4 对 称 的 
G6:9 对 称 的 
Ca 对 称 的 
电 电 
7 对 称 的 。 (6: :0 


CDGD BED (DC: (OP GD CD G9) GIR ED C9 
sy eas pls] Piste 


* 6030 


5.3.3 小 节 


11. 参 见 Information Processing Letters 3 (1974) ,8 一 12。 

12. 在 抛弃 了 {Xi ,XX,, 义 ;,X4| 的 最 小 者 之 后 ,我 们 有 配置 一 加 上 7-3 个 
孤立 的 元 素 ; 这 些 当 中 的 第 三 个 最 大 者 可 以 在 V3(n -1) 一 1 个 另外 的 步骤 之 后 求 
得 。 

13 .在 求 得 头 f(n ) 个 元 素 的 中 间 元 素 , 比 如 说 Xi 之 后 ,把 它 同 其 它 每 个 元 素 进 
行 比较 ;对 于 某 个 有 ,这 把 诸 元 素 分 成 近乎 n/2 一 上 个 小 于 X; 的 和 nn/2+ 个 大 于 XX; 
的 两 部 分 , 剩 下 的 是 求 较 大 的 集合 当中 第 || 个 最 大 或 最 小 的 元 素 , 这 需要 z/2 + 
O(|k|log 2) 次 另外 的 比较 。| | 的 平均 值 (考虑 诸 点 一 致 地 分 布 于 [0…1] 中 ) 是 
O(1/Vn)+ O(nf/Vf(n))。 设 T(n) 是 当 Fa)=7223 时 的 平均 比较 数 ; 则 TT(n) 
-7=T(z23)-7223+722+O0(0223), 由 此 得 出 结果 。 

注意 到 这 样 一 点 是 有 趣 的 , 即 当 n=5 时 ,这 个 方法 平均 仅 需 要 5 生 次 比较 , 比 
习题 9 的 树 还 稍 好 些 。 

14 .一 般 地 说 ,由 于 习题 2 ,通过 求 1X,…,X 中 的 第 上 个 最 大 者 ,并 把 它 同 
X, 作 比 较 , 可 以 在 U,(n) 三 V,(n 一 1)+1 次 比较 中 求 出 第 1 个 最 大 者 。( 对 于 更 
大 的 1 ,Kirkpatrick 实际 上 证 明 (12) 是 U,(n+1) 一 1 的 下 限 。J.W.John,SICOMP 
17 (1988) ,640 一 647 发 现 了 对 于 U,(n) 的 一 个 改进 了 的 下 限 。) 

1$.min(z,2 +1T-z)。 假 定 雪 2+1- 如果 当头 上 个 字 被 谈 入 时 我 们 不 把 它 
们 全 部 保存 起 来 , 则 由 于 尚未 知 随后 的 值 ,我 们 可 能 忘记 第 上 个 最 大 者 。 反 之 ,个 
单元 已 经 足够 了 ,因为 我 们 可 把 新 输入 的 元 素 同 以 前 的 第 i 个 最 大 元 素 进 行 比较 ， 
当 且 仅 当 寄存 器 中 的 值 是 更 大 者 时 把 它 存 起 来 。 

16. 这 个 算法 由 (ea,b,c,d)=(2 ,0,0,0) 开 始 并 以 (0,1,1,2 一 2) 终止 ,如 果 对 
手 避 免 “出 人 意外 ”的 结果 , 则 在 每 次 比较 之 后 ,惟一 可 能 的 转换 是 从 (a,5b5,c,d) 到 
本 身 或 者 到 


(a—~2,6+1,c+1,d), 如 果 之 2 ; 
(a-l,poc+l,dg) 或 (aa-l1,o+lc,dg)， 如 果 a 之 1; 
(a,b—-1l,c,d+1), 如 果 0 之 2 ; 
(a,b,c—-1,d+1), 如 果 c 宇 2。 


由 此 得 出 ,为 了 从 (a,6,c,4) 得 到 (0,1,1,a + 6+ c+-2), 需 要 | 3a |+b+e- 


2 次 比较 。[ 参 考 文 献 CACM 15 (1972) ,462 一 464。 在 FOCS 16 (1975) ,71 一 74 中 ， 
Pohl 证 明 :这 个 算法 也 使 平均 的 比较 次 数 取 极 小 值 ]。 

17. 首 先 对 于 最 大 者 使 用 (6), 然 后 对 于 最 小 者 使 用 (6), 注 意 其 中 有 | n/2j 次 比 
较 对 两 者 是 公共 的 。 

18. 对 于 所 有 充分 大 的 nn,V(n) 三 18n 一 151。 

21. 步 又 0. 构造 大 小 为 2* 和 2*-‘*! 的 两 棵 淘汰 树 。 
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步骤 j .对 于 1 三 j 达 1:。( 这 时 我 们 输出 了 最 大 的 j -1 个 元 素 。 剩 下 的 元 素 , 连 
同 每 个 等 于 - co 的 一 组 虚拟 的 占 位 者 一 起 ,现在 出 现在 两 棵 淘汰 树 A 和 B 中 ,其 中 
A 有 2 个 叶 , 而 B 有 2 ‘'/ 个 ,) 设 a 是 A 的 冠军 ,并 且 假 定 w 已 经 击败 co,al，…， 
a,-_1, 其 中 | 是 2! 个 元 素 的 冠军 。 类 似 地 , 设 b 和 pp ,p_i 是 B 的 冠 车 
和 次 冠军 。 如 果 j =z, 则 输出 max(a ,5) 并 停止 。 否 则 ,通过 引进 2* /个 虚拟 占 
位 者 在 B 的 底部 ,而 “增长 " 另 一 个 级 。 这 些 虚 拟 占 位 者 每 一 个 在 他 们 的 首 一 轮 中 都 
已 输 给 B 的 选手 。( 我 们 的 策略 将 是 :如 果 可 能 ,通过 把 B 和 包含 a0,al,… ,Qk 4+; 
的 A 的 子 树 A’ 交换 ,而 把 B 合并 到 A; 注 意 A , 像 新近 被 扩大 的 了 一样, 是 有 
224 11 个 时 的 一 个 淘汰 树 )。 比 较 2 和 a ,+ 然后 比较 其 胜 者 和 ax + 等 
等 ,直到 找到 c = max(0,a 141;-1,…,Qp-1) 为 止 。 情况 1,6<c: 输 出 a 并 把 B 同 
A 交换。 情况 2,6=c 和 64<a: 输 出 a 并 交换 B 和 A 。 人 情况 3,2=c 和 0>a: 输 出 
b。 在 处 理 了 这 三 种 情况 之 后 留 给 我 们 的 是 (可 能 是 新 的 ) 淘 状 树 A 和 B, 其 中 B 的 
冠军 刚刚 被 输出 。 从 B 中 删 去 该 元 素 并 以 - co 代 之 , 作 任何 必要 的 比较 来 恢复 锅 
标 淘 汰 结构 (如 同 在 树 选 择 中 那样 ) 。 这 就 完成 了 步骤 ) 。 

步骤 0 做 2* 一 1+2*11-' 一 1 个 比较 ,而 步骤 1 作 1 次 。 步 又 1,2,…,t 一 1 各 作 
至 多 一 1 次 比较 。 但 情况 2 除外 , 那 时 可 能 是 次。 但 每 当 情况 2 出 现时 ,当下 次 
是 情况 1 或 情况 2 时 我 们 保留 一 次 比较 ,因为 ao 过 后 将 是 - ce。 因此 步骤 1 到 上- 
1 总 共 至 多 作 (1 一 1)(k 一 1)+1 次 比较 。 

由 习题 3, 当 有 宇 1 宇 2 时 ,对 于 所 有 nn 三 2*+2** 1 ,我 们 有 W,(n) 三 n+(z 一 
1)(k 一 1)。 如 果 nn 宇 2*+1 一 2, 习 题 4 指 出 W,(n) 宇 n -+Tlg(22+ 一 2) 全 ,如 
果 1 宇 3, 它 是 nn 一 1+ (1 一 1)k+1。 因 此 当主 1 宇 3 时 ,对 于 2*+t-2 太 nn 二 2*++ 
2*+17 ,这 个 方法 是 最 优 的 。( 如 果 上 很 大 ,对 于 ?2 的 夺 干 较 小 的 值 也 一 样 。,) 

当 nn 之 2*+2411 -1+t 一 2 和 上 宇 t 之 3 时 , 当 在 步骤 1,…,i 一 2 的 末尾 重新 构造 
B 时 ,使 用 一 个 保留 的 元 素 而 不 使 用 一 % 的 一 个 类 似 的 方法 ( 见 (11) 的 证 明 ), 可 证 
明 V,(n) 达 n+(t 一 1)(k 一 1)。|[ 参 见 ]. Algorithms 5 (1984) ,557 一 578 。 

22 .一 般 地 说 , 当 27.24<7 +2-: 委 (2+1) :2 和 <2 委 2 时 ,以 大 小 为 2 
的 :+1 个 淘汰 树 开始 的 这 一 过 程 ,将 产生 比 (11) 少 | (+ 一 1)/2j 次 比较 ,因为 在 (让 ij) 中 
用 来 求 极 小 的 这 许多 比较 在 (iii) 中 可 被 “重用 ”。 

23. 按 照 (15), 当 mn 一 时 , 量 Vijjy(n)/n 以 2 为 下 限 ;但 D.Dor 和 U.Zwick 
已 经 证 明 ,实际 的 下 限 严 格 地 大 于 2, 而 上 限 小 于 上 限 2.942[SICOMP 28 (1999)， 
1722 一 1758;SILAM J.Disc. Math. 14(2001) ,312 一 32$]。 他 们 还 证 明了 一 个 渐 近 的 
上 限 


VA) Zt+ alg 一 + O(alog log —)) 7 
当 au 很 小 时 , 它 离 (15) 不 是 太 远 [Combinatorica 16 (1996) ,41 一 S8 ] 。 
24. 由 等 式 (6), 由 于 WW,(n)=n+O(t log 7), 因 此 当 1 达 Vn/lnn 时 ,提示 中 的 
命题 肯定 成 立 。 假 设 对 ”该 命题 成 立 。 并 且 设 x 和 w 在 2n 个 随机 地 有 序 的 元 素 
。 038 。 
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的 头 n 个 中 排 位 为 :_ =Lz-vVin 和 1 =[i+wni |。( 最 小 的 元 素 的 排 位 
为 1 6) 把 其 它 个 元 素 和 w 作 比 较 , 并 且 还 把 那些 小 于 vw 的 那些 元 素 和 w 作 比 较 。 
在 头 2 个 元 素 中 排 位 为 1 的 一 个 元 素 xz 在 整个 中 有 排 位 ;的 概率 p, 是 
1) (2 )/(2”)。 ;的 平均 值 是 怠 sp, = 24; 这 是 <x 的 元 素 的 平均 数 ， 


ft—l/\n-t n+l 
因此 同 “ 作 比较 的 平均 数 是 | ”| -x+O(nlog n)W2。 设 ww 和 ww 在 所 有 2n 


个 元 紊 当中 排 位 为 y_ 和， ,并 设 T_ =|2: 一 V2it ln2n 和 TTT, =[21+V2t 1n2n |。 
如 果 s_ <T_ 和 s$， >T+， ,通过 在 x 和 w 之 间 由 s， 一 s_ +1 个 元 素 中 进行 选择 ,我 
们 能 找 出 排 位 为 T. 和 TT 的 元 素 。 我 们 将 证 明 , 有 ss >T 或 <T. 


-2Vnlnn 或 5; <T, 或 s;;,>T,，+2Vnlnn 是 非常 不 可 能 的 ; 因此 
O(nlog n)* 个 另外 的 比较 几乎 就 总 是 足够 了 。 如 果 我 们 能 够 证 明 “ 非 常 不 可 能 " 指 的 
是 “对 于 所 有 充分 大 的 n ,有 概率 O(n ”， “)”, 则 通过 对 n 用 归纳 法 就 可 得 出 提示 了 。 

注意 ps11/p;= 二 s(n 一 s+t)/(st+1 一 1)(2n 一 s), 当 s 从 zt 增 大 成 n+z 时 减少 ， 
而 且 它 是 人 1 的 当 且 仪 当 ;之 2n(t 一 1)/(n 一 1); 当 s=s(c)=21+ct(n -1)/n 


时 , 它 S1 -六 oo 中 + O(n 1)。 因 此 ;之 5(c) 的 概率 是 2c -nt2 Pi (1+ 


O(n 中 ))。 类 似 地 , 当 s=s(c)=2i--1-c(t-1)(n+t+1-t)/n3? 时 ,pp, 1/p.<1 


-on -O(n ), 所 以 s 过 s(c) 的 概率 之 2c-1n12pu4(1+ O(n 由 ))。 在 我 


们 需要 的 情况 下 ,对 于 所 有 很 大 的 nn,c 的 相关 的 值 宇 . 55n3?(n 2)22z 2(n 一 
上 ) ,而 且 Stirling 近似 蕴涵 着 pi 和 pi) 两 者 都 是 
O(7125-12(27 一 s) 12)exp(— 2sc2(7 — 1) /nn 一 2(27 一 yc2i2173) 去 
O(t -2exp( 一 41(7 -tc2j172)) < O(n 1?) 

因此 O(n (log n) 站 ) 的 概率 确实 是 非常 不 可 能 的 。[ 一 个 类 似 的 构造 出 现 于 
CACM 18 (1975) ,165 一 172 中 ,但 分 析 不 正确 ,|] 

25. 给 定 一 个 选择 算法 和 |1,…,n| 的 一 个 排列 x, 设 如 果 |x;-t|> |x;-z|， 
则 对 于 每 个 比较 x; :x 计 z; 的 费 ; 如 果 |x; 一 t= |xj 一 tt, 则 两 者 各 计 1/2。 如 果 
Xi 人 Xj 人 tt 或 x;>>xj 之 1 ,对 x; 的 计 费 称 为 有 用 的 ;否则 它 是 无 用 的 。 设 zx 是 对 
的 所 有 计 费 , 则 比较 总 数 是 xz1+… + xz,;。 显 然 x,=0; 但 是 对 于 所 有 衣 关 1, zx, 宇 1， 
因为 不 同 于 z 的 每 个 元 素 都 有 一 个 有 用 的 计 费 。 我 们 将 证 明 对 于 0<k<i,Ex,,. 
+ Ez, 之 3。 

命 Ap(z)=[ 对 z+k 的 头 一 次 计 费 是 无 用 的 ]。 于 是 Ap (x)=1-A_,(x)， 
其 中 x 和 zx 类 似 但 以 (1 一 上 +1,… ,t+ 衣 ,t 一 上 ) 分 别 代替 元 素 (tk,…,t+ 一 1， 
t+k)。 因 此 EA +EA_,=1。 
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命 B(x)= 二 [对 1:1+k 和 1 一 的 头 一 次 计 费 都 是 了 ,而且 上 十 有 接受 它 的 第 二 次 


计 费 在 1 一 & 之 前 ]。 还 命 C(x)=[zxi;4 宇 2+ Ay]。 于 是 B(x) 达 C(x ), 其 中 x 
和 zx 类似 ,但 是 以 (1 + 一 1,1 一 上 ,…,t + 一 2) 代 替 元 素 (1 一 ,tf 一 +1,…,f+ 
一 1)。 类 似 地 ,B_,(x) 三 C_j(x ), 其 中 是 从 x 通过 把 (1 一 kt+1,…,t+ 衣 一 1， 
t+ 尺 ) 变 成 (1 一 +2,…,t+ 衣 ,tlt 一 上 +1) 得 到 。 由 此 得 出 ,EB 二 EC, 上 且 EB ,过 
EC _,。 

通过 注意 zi +xiy 宇 2+ Ai+A,-B-B_,+C,+C-, 即 可 完成 证 明 。 
[关于 进一步 的 结果 ,参见 /ACM 36 (1989) ,270 一 279] 。 

(17) 中 的 上 限 也 有 一 个 相 匹 配 的 下 限 , 姚 期 智和 姚 储 枫 在 SICOMP 11 (1982)， 
428 一 447 中 证 明 对 于 +>1 和 n(82)3,V(n)n+ 广 (in Inn-In 4-9)。 

26.(a) 设 两 种 类 型 分 量 的 顶点 被 标记 为 a ;6 过 c<。 对 手 对 非 宛 余 的 比较 采取 如 下 
的 动作 :情况 1,a:a ,作出 一 个 任意 的 决断 。 情 况 2,zx:5, 比 如 说 xz>65; 此 后 对 这 个 特 
定 的 5 所 作 的 所 有 未 来 的 比较 y:5, 都 将 得 到 y>>5, 否 则 这 些 比 较 便 通 过 对 于 
U,(n 一 1) 的 一 个 对 手 来 加 以 判定 ,其 总 数 将 为 宇 2+ U,(n 一 1) 次 比较 。 这 个 归结 可 被 
缩写 成 " 邻 5 = min;2++ U,(n 一 1) 。 情 况 3,xic, 令 c= max;2+ U,(n—1)。 

(b) 设 新 类 型 的 顶点 被 标记 为 d1,4d;<e;f<g<h>>i。 情况 1,aia 或 cc ， 
任意 决断 。 人 情况 2,a:c, 比 如 说 a 之 c。 情 况 3,x:5b, 令 p=min; 2+ U,(n 一 1)。 情 
沈 4,Xid, 令 d= 二 min; 2+ U,(n 一 1)。 情 况 5,xie, 今 e= max; 3+ U,_ (no—1)。 
情况 6,zx:f, 令 f=min; 2+ U,(n 一 1)。 情 六 7,x:ig, 令 ff 和 g=min;3+U,(n 一 
2)。 情 况 8,x:h, 令 有 = max; 3+U 2 1)。 情 况 9,x:ii, 邻 17= min; 2+ 
U,(n—1)。 

(c) 对 于 t=1, 我 们 有 U,(n)=n 一 1, 所 以 不 等 式 成 立 。 对 于 1<i1 过 nn/2-1， 
使 用 归纳 法 和 (b)。 对 于 t= (nn 一 1)/2, 使 用 归纳 法 和 (a)。 对 于 1=n/2,U,(n-1) 
= U,_1(n 一 1); 使 用 归纳 法 和 (a)。 

27.(a) 高 度 有 满足 2* 宇 >,1 宇 5,Pr(1)/p=1/p。 

(b) 如 果 xr 达 1, 则 在 至 少 n-|So| 一 |To|=n 一 |So| 一 7 个 触发 之 后 ,我 们 达 
到 A3。 第 i 个 最 大 元 素 将 是 Q 的 最 小 或 者 最 大 的 元 素 , 而 且 Q 的 元 素 彼此 还 未 比 
较 过 ,所 以 我 们 将 需要 至 少男 外 的 | Q| 一 1 个 触发 。 如 果 |So|<g, 我 们 有 |Q|= 
7 ,否则 我 们 有 |Q| 宇 | So| 一 | Clyo)|+1 宇 | So 一 (gg 一 7)+1; 所 以 在 两 种 情况 下 
都 将 作 至 少 nn -9g 个 触发 。 有 n+1 一 t 个 包含: -1 个 最 大 元 素 的 集合 工 , 这 些 元 
素 是 由 一 个 给 定 的 叶 确 定 的 ,而 且 对 于 每 一 个 这 样 的 芽 , 达 到 该 叶 的 概率 是 0 或 者 
2 人 (”) ,其 中 / 宇 n -4 是 对 应 于 T 的 触发 的 次 数 。[ 这 个 对 手 在 Bent 和 john 的 


文章 当中 是 含蓄 的 , 见 STOC 17 (198$) ,213 一 216] 。 
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(c) 如 果 z<r, 把 + 变 成 为 n+1-z; 当 7 使 右边 取 极 大 时 ,这 将 使 1 宇 r ,因为 r 
将 是 O(Vn)。 如 果 对 于 所 有 yE To, 有 可 能 以 1C(y)|>gq 一 rr 达到 A3, 则 除了 它 
在 S 和 TT\ |yol 之 间 所 作 的 至 少 (r 一 1)(g 一 r+1) 次 比较 之 外 ,这 个 算法 还 将 作 
n 一 1 个 比较 来 把 第 1 个 最 大 元 素 同 所 有 其 它 元 素 关联 起 来 。 

(d) 选 择 r=TV 殉 1 和 q=2r-2。( 令 9=r+LV 万 + 订 J-2 稍微 好 些 ;这 个 
选择 使 (c) 中 导出 的 下 限 极 大 。) 

5.3.4 小 市 


1.( 当 MA 为 奇数 时 ,最 好 在 Up 后 边 接 上 vo+19 worl Va+2，"… ,而 不 是 像 在 图 中 那 
样 接 上 row 由 于 被 转换 的 行 彼此 相 比 较 , 因 此 这 个 改动 是 正确 的 。) 





(3,5) 奇 -偶合 并 Pu 的 八路 排序 
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2. 增 量 hh 需要 2 [2h 之 nj 个 级 ;对 于 n=8 见 上 面 的 图 式 。 

3. 对 于 mr 宇 1,C(m,m-1)=C(m,m)—1。 

4. 如 果 工 (6)=4, 则 因为 5(6)= 12, 每 次 将 有 三 个 比较 动作 。 但 是 接着 撤销 底 
线 和 它 的 四 个 比较 器 将 给 出 S(5) 过 8 ,矛盾 。[ 同 样 的 论证 产生 T(7)= T(8)=6]。 


Ian Parberry 通过 穷尽 的 计算 机 查找 已 经 证 明 T(9) = 了 (10)=7; 参 见 Math. Systems 
Theory 24 (1991),101~116,| 


5. 如 果 n 宇 2, 设 f(n)= ff([n/21+1+|Tlg| nn/211); 于 是 ,对 nn 用 归纳 法 f(x) 
= (1+|lgn |)| lgn |/2。 


6. 我 们 可 以 假定 每 个 阶段 作 | n/2j 次 比较 (额外 的 比较 也 无 妨 )。 因 为 了 (6) = 
5 ,只 需 证 明 T(5) = 5。 当 n=5 时 ,在 两 个 阶段 之 后 ,我 们 不 能 避免 偏 序 一 六 或 
三 ,再 用 两 个 阶段 不 可 能 对 它们 的 排序 。 


7. 假 定 输 入 键 码 是 11,2,… ,10|。 关 键 码 的 事实 在 于 ,在 进行 了 头 16 次 比较 之 
后 , 行 2,3,4 和 6 不 可 能 包含 8 或 9, 它 们 也 不 可 能 同时 包含 6 和 7。( 注 意 修改 后 的 
网 络 有 延迟 8。) 
8 .定理 下 的 直截了当 的 推广 。 
9. 由 习题 8, M(3,3) 宇 $S(6) -2S(3); M(4,4) 宇 $(8) -2S(4); M(5,5) 宇 
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2M(2,3)+ 3; 而 且 M(2,3) 宇 $(5) -S$S(2) 一 $(3)。 类 似 地 , M(3,4) = 8。 但 
M(3,5) 和 M(4,5) 等 于 多 少 呢 ? 

10. 由 定理 Z 中 的 证 明 方 法 可 得 提示 。 然 后 证 明 , 偶 子 序列 中 0 的 个 数 减 奇 子 
序列 中 0 的 个 数 为 + 1 或 0。 

11.(M.W.Green 给 出 的 解 。) 在 下 列 意义 下 ,这 个 网 络 是 对 称 的 , 即 , 每 当 z, 同 
z; 进行 比较 , 则 就 有 一 个 相应 的 比较 zs:_1_;:z2' -1_;。 任 何 有 能 力 对 序列 (zo，,…， 
z2'-1) 排 序 的 对 称 网 络 ,也 将 对 序列 (一 zz' 1,… ,一 zo) 排序 。 

Batcher 已 经 发 现 ,这 个 网 络 确实 将 对 一 个 双 调 序列 的 任何 循环 移 位 (zz, zx;1， 
es 这 是 0 一 1 原理 的 一 个 推论 。 

[ 当 阶 不 是 2 的 一 个 次 需 时 ,对 于 双 调 排序 器 这 些 结果 不 成 立 。 例 如 ,图 52 不 
能 对 <0,0,0,0,0,1,0> 进 行 排序 。Batcher 对 双 调 序列 原来 的 定义 更 复杂 ,而且 不 
如 我 们 现在 采用 的 定义 有 用 ]。 

12.2V 人 I 是 ( 考 记 0=1 闻 列 ); 但 是 交 信 YY 不 是 (3 启 (3515d;5) 7657 8.2》)。 

13 .一 个 完全 的 洗 牌 有 以 zx 代替 = 的 效果 ,这 里 7 的 二 进 表示 就 是 由 i 的 二 进 
表示 问 右 循环 转动 一 位 得 到 的 (参见 习题 3.4.2-13)。 如 果 洗 的 是 比较 器 而 不 是 诸 
行 ; 则 这 使 得 比较 器 的 头 一 列 作 用 于 对 偶 xz[7] 和 >z[i 四 2 一 1!] ,下 一 列 作用 于 z[ i 
和 z[iD2"“],…, 第 1 列 作 用 于 z[i] 和 xz[i 昌 1], 第 1+1 列 再 次 作用 于 z(i) 和 和 
z| iCD2” ”], 等 等 。 这 里 “ 旬 " 指 二 进 表示 的 蜡 或 。 这 表明 图 57 等 价 于 图 56; 在 ;个 
阶段 之 后 ,我 们 得 到 2: 个 元 素 的 一 些 组 ,它们 的 次 序 交 替 地 呈正 序 和 反 序 状 。 

C.G.Plaxton 和 全 . Suel| Math. Systems Theory 27 (1994),491 一 508] 已 经 证 明 ， 
任何 这 样 的 网 络 至 少 需 要 Q((log n)*/log log nn ) 级 的 延迟 。 

14.(a) 对 于 i 关头 j., 令 V(bB) 这 是 显 
然 的 除非 集合 [i,,j,,i,,j,| 只 有 三 个 不 同 的 元 素 ; 假 设 i,= i,。 于 是 ,如 果 s 之 1, 则 
在 4a) 和 (0) 两 者 中 58 二 1 个 比较 书 经 分 别 以 (7 ,07 代替 (了) 和 (6) 
(a):=a, 和 a =a, 所 以 我 们 可 以 假定 51> sy>…>>54>1。(d) 设 B=a[i:j]; 于 
(Ve (i ge ) VB ns 
Xi，"“ ,Xn))。 连 代 这 个 恒等式 就 产生 结果 。(e)f,(x)=1 当 且 仅 当 在 G。 中 没有 从 
i 到 7 的 通路 ,其 中 x; > x;。 如 果 a 是 一 个 排序 网 络 , 则 a 的 共 扼 也 是 ;而 且 对 于 满 
是 2 的 所 有 二 05 取 天 二 人 这 表明 ,对 于 是 作 启 天 已 全 有 有 从 二 到 
&i 的 一 条 有 向 弧 。 如 果 有 了 关 i +1,x=e'?V el*? 表 明 对 于 某 个 UR A 
e' Ve 表明 G 有 从 i 或 &1 到 ,的 一 条 有 向 弧 。 如 果 , 隆 i +1, 如 此 继续 ,直到 
在 G 中 找到 从 i 到 i+1 的 一 条 通路 为 止 。 反 之 ,如 果 a 不 是 一 个 排序 网 络 , 令 二 是 
满足 zx; > x;11 的 一 个 向 量 ,而 且 go(z)=1。 某 个 共 斩 w 有 (x)=1, 所 以 G,: 不 
可 能 有 从 i 到 i+1 的 通路 。[ 一 般 地 说 ,对 所 有 的 x,(xa); 三 (za); 当 且 仅 当 对 于 
所 有 共 力 于 a 的 a ,Gs 有 从 i 到 j 的 一 条 有 向 通路 。] 
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15.[1:4][3:2][1:3][2:41[2:31]。 

16. 这 过 程 显然 终止 。 步 骤 T2 的 每 一 次 执行 有 交换 第 i, 个 和 第 j, 个 输出 的 作 
用 ,所 以 这 个 算法 的 结果 ,是 以 某 种 方式 排列 输出 行 。 由 于 得 到 的 (标准 ) 网 络 不 改 
变 输入 (1,2,…,n), 输 出 行 必 然 被 恢复 成 它们 原来 的 位 置 。 

17. 通 过 习题 16 的 算法 使 网 络 标 准 化 ;然后 考虑 输入 序列 (1,2,…,n), 我 们 看 
到 标准 选择 网 络 必 定 把 1 个 最 大 的 元 素 放 入 到 :个 最 高 编号 的 行 中 ;而 且 V,(n ) 网 
络 必然 把 第 1 个 最 大 者 放 人 和 信行 n+1 一 1:。 应 用 0--1 原理 。 

18. 定 理 A 的 证 明 表 明 V,(n) 宇 (n -zt)ilg (t+1)|+[lgz|。 

19. 网 络 [1:n][2:n]…[1:31[2:3] 用 2n 一 4 个 比较 器 选择 最 小 的 两 个 元 表 ;对 
于 V,(n) 加 [1:2]。 下 限 从 定理 A 的 证 明 得 出 (参见 前 面 的 答案 )。 


20. 首先 注意 , 当 n 宇 4 时 ,V3(n) 宇 V3(n 一 1)+2; 由 对 称 性 ,可 以 假定 头 一 个 
比较 絮 是 [1:n |]; 在 这 之 后 ,必然 出 现 一 个 网 络 去 选择 (zx,,x3,…, x, ) 中 的 第 三 个 最 


大 者 ,而 另 一 个 比较 器 接触 行 1。 另 一 方面 ,V3(5) 达 7, 因 为 四 个 比较 器 找到 | x， 
X23，X3,X4| 的 min 和 max, 而 剩 下 的 是 对 三 个 元 素 排 序 。 

21. 假 的 ;例如 ,考虑 两 个 网 络 [1:2][3:4][2:3][1:4][1:2][3:4] 和 [1:2][3:4] 
12:3113:4][1:4j[1:2j[3:4]。( 然 而 N.G de Bruijn 在 Discrete Math. ，9 (1974 ) ， 
337 证 明 ,新 的 比较 器 不 会 把 在 习题 36 的 意义 下 是 原始 的 排序 网 络 弄 乱 。) 

22.(a) 对 a 的 长 度 用 归纳 法 ,因为 zx; 三 y; 和 zj 三 y 蕴涵 zx; 人 zx 三 y; 人 yy; 和 xz;V 
ZT 全 yiV yo。(b) 对 a 的 长 度 用 归纳 法 ,因为 (zx; A zx)(y; Ny)+ (riVz)(yV yy) 二 
XiY; 十 Xiyj;;[ 因 此 ,v(x Ny) 志 v(xa A ya) ,这 个 发 现 是 由 W. Shockley 给 出 的 。] 

23. 设 zp 二 1 当 且 仅 当 pi 宇 j ,ys 二 1 当 且 仅 当 p>j; 则 (za),=1 当 且 仅 当 
( pa) 之 j ,等 等 。 

24. 对 于 /; 这 个 公式 是 显然 的 ,而 对 于 7 ,如同 在 提示 中 那样 取 z= x 人 yy, 而 由 
习题 21 ,发现 (za);= (za);=0。 由 习题 23 可 知 ,加 上 额外 的 一 些 1 到 >, 即 可 看 出 
存在 一 个 排列 p , 它 使 得 (pa ) ;三 E(xz)。 通 过 颠倒 次 序 得 出 u; 和 wi 的 关系 式 。 

25.(H. Shapiro 给 出 的 解 。) 设 p 和 g 是 排列 且 (pa);= 7 和 (ga),= wu。 通过 
一 系列 的 步骤 ,每 步 交 换 相 邻 的 一 对 整数 (i,i+1), 有 可 能 把 p 变换 成 g; 输 入 中 这 
样 一 种 交换 对 第 & 个 输出 的 影响 至 多 是 土 1。 

26. 存 在 有 一 一 对 应 , 它 把 Pa 的 元 素 (p1,…,p,) 对 应 到 “覆盖 的 序列 ”x ‘中 覆 
盖 x 覆盖 … 和 覆盖 x'” ,其 中 x 中 在 Da 中 ;在 这 个 对 应 中 , 当 且 仅 当 p; 三 i 时 
zs=xz0Ve。 例 如 ,(3,1,4,2) 对 应 于 序列 (1,1,1,1) 履 盖 (1,0,1,1) 覆 盖 
(1,0,1,0) 柳 盖 (0,0,1,0) 覆 盖 (0.0,0,0)。[ 姚 期 智 发 现 ,因此 ,只 需 对 于 |{， ”| 个 和 
当地 选 定 的 排列 测试 一 个 排序 网 络 即 可 。 例 如 排序 (4,1,2,3), 《3,1,4,2),(3,4,1,， 


” 643 ， 





习题 答案 








2)《2,4,1,3) 和 (2,3,4,1) 的 任何 4 网 络 对 任何 事情 进行 排序 。 参 见习 题 6.5-1; 也 
见习 题 56]。 

27. 这 个 原理 成 立 因 为 (xa); 是 xz 的 第 i 个 最 小 的 元 素 。 如 果 x 和 yy 表示 其 行 
是 排 好 序 的 一 个 矩阵 的 不 同 的 列 , 使 得 对 所 有 的 i,zx; 硅 yi, 而 且 如 果 xcc 和 yc 表 
示 对 这 些 列 排 序 的 结果 , 则 所 述 的 原理 表明 ,对 于 所 有 i,(xa); 二 (ya);, 因 为 我 们 可 
以 选择 和 y 中 的 任何 i 个 元 素 的 处 于 相同 的 行 上 的 z 的 i 个 元 素 。[ 我 们 曾 使 用 这 
一 原理 ,以 证 明 谢 尔 排 序 的 不 变性 性 质 , 即 定理 5.2.1K。 关 于 这 个 思想 的 进一步 的 
利用 , 见 David Gale 和 R.M.Karp 有 趣 的 文章 , J. Computer and System Sciences 6 
(1972),103 一 115。 关 于 列 排序 不 弄 乱 排 好 序 的 行 这 一 事实 看 来 是 在 研究 表格 的 处 
理 时 发 现 的 ;参见 Hermann Boerner, Darstellung von Gruppen (Springer,1955) 第 5 
章 ,》5。| 

28. 如果 | x; ,… ,zi; 1 是 t 个 最 大 的 元 素 , 则 x; 人 … 信 x; 是 第 t 个 最 大 的 。 如 
末 |x; ，,… ,Xi | 不 是 i 个 最 大 的 元 素 , 则 Ti A 八 zz; 小 于 第 1 个 最 大 的 元 素 。 

29.CriA yi ro NANyDV riAy) ,raNy V(r A y)V (rN y3),yIV (zr 
A yo)V (ro A ya3)V (TiN ya), yr V (ra Ny3)V (rr A ya)V (ri ys),y3V (7x3 
Ya)V (xo Nys)V r,syaV (x3 ys)V rx, ysV x3)o 

30. 应 用 分 配 律 和 结合 律 把 任何 公式 归 约 为 诸 人 的 诸 V 的 公式 ;然后 用 交换 律 ， 
等 堪 律 和 吸收 律 导 出 规范 形式 。S; 正好 是 那样 一 些 集合 S$ ,使 得 当 x;=[j;€ Sj 时 
这 个 公式 为 1, 而 对 于 S 的 任何 真子 集 S', 当 x;= [jE€S ] 时 这 公式 为 0。 

31.64=166。R.ChurchlDuke Math.J., 6 (1940) ,732 一 734] 求 出 6; = 7579， 
M. Ward[Bull. Amer. Math. Soc. ,52 (1946) ,423] 求 出 656=7828352 ,以 下 的 值 是 $， 
= 2414682040996, 86。 = 56130437228687557907786。[ R. Chrtch, Notices Amer. 
Math. Soc. 12 (1965 ) , 724; ]. Berman 和 P. Koehler, Mitteilungen Math. Seminar 
GieBen , 121 (1976) ,103 一 124;D. Wiedemann ,Order 8 (1991),5 一 6]。 显 然 对 于 
6, 没有 简单 的 公式 。D. Kleitman|Proc. Amer. Math. Soc. 21 (1969) ,677 一 682 | 使 用 


一 个 极其 复杂 的 论证 证 明了 当 n>o0 时 , (lg 5) (2 1 


32.G, ,1 也 是 所 有 串 bb 的 集合 ,其 中 096 和 vy 在 G, 中 ,而 且 作 为 0 和 1 的 向 量 9 
全 gw。 由 此 得 出 ,G, 是 所 有 0 和 1 的 串 zo… zx,'_ | 的 集合 ,其 中 每 当 在 0--1 向 量 的 
意义 下 ,i 的 二 进 表示 “三 ”j 的 二 进 表示 时 即 有 性 质 = 二 = 。G, 的 每 个 元 素 z0,…， 
zz 1 除了 00…0 和 11…1 之 外 ,在 f(zxi,…,z) 二 xz[(xi…Xi)2j] 的 对 应 之 下 ,表示 
从 Dy: 到 10,11 的 一 个 人 一 V 图 数 f(x1,… ,zx,)。 

33. 如 果 这 样 一 个 网 络 存在 , 则 对 于 某 个 函数 f ,我 们 将 有 (x1A zx)V (zx2 A zs) 
V(xza3Ara)= AGOzlAz zliVzza zi) 或 (ZiArza zzlVzay zi) 或 … 或 
f(zi;yXy;X3 八 XT4，X3V X4)。 选 择 (x1 ,rT2,X3,74) 二 《rT ,1,0),《(rx,0,X,1),《z， 
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1.0.zy,(1,zz0y,(1z0,zy,(0,1,z,z) 表 明 不 存在 这 样 一 个 图 数 f。 

34. 是 ;在 证 明了 这 点 之 后 ,你 已 经 准备 好 着 手 处 理 图 49 中 的 2=16 的 网 络 。 
(否则 ,你 利用 定理 Z 采 用 硬 算 的 方法 简单 地 测试 所 有 2” 个 二 进位 的 癌 量 。) 

35. 否 则 ,其 中 仅 有 i 和 i +1 放 错 地 方 的 排列 将 永远 不 被 排序 了 。 设 Di 是 在 
一 个 标准 的 排序 网 络 中 比较 器 [i: 1+] 的 个 数 。 则 Di +2D,+ D; 之 2(n 一 2), 因 
为 对 于 1 所 i 入 n 一 3, 从 i,i+11 到 |i+2,i+31 以 及 [1:2] 和 [n 1:n], 必 然 有 两 
"be 类 似 地 D+2D,+:… + RD + (Rk—1)Dirit'+ D2 1>k(n—-k), 这 
是 一 个 由 J]. M. Pollard 给 出 的 公式 。 也 可 以 证 明 :2D, + DD; 宇 3n 一 4: 如 果 我 们 对 于 
所 有 的 j 删 去 形 如 [j:j+1] 的 头 一 些 比较 器 , 则 对 于 1 三 i 三 nn 一 2 必然 至 少 还 剩 下 
一 个 比较 器 位 于 1i1,i+1,i+2| 之 内 。 类 似 地 kD1+(k& 一 1)D2+…+Di 宇 S(k+ 
1)(n—k)+k(k—1), 

36. (a) 每 个 相 邻 的 比较 器 都 使 反 序数 减少 0 个 或 1 个 ,而 且 《n,n 一 1,…,1) 有 


[”) 个 反 序 。 (BD) 设 @=B[PD:P 和 1 对 的 长 度 用 归纳 法 ,进行 论证 如 下 :如 栗 


sD > Cp) (m0 a (sy > 
(yB) s+1(yB);。 如 果 p=i 一 1, 则 或 者 (zxB)， 或 者 (z8), 1 要 >(zp) 六 因此 或 者 
(yB), 或 者 (yB8),+1>(xB);。 如 果 p=j 一 1 或 j, 论 证 是 类 似 的 。 对 于 其 它 的 p, 论 
a las 

注意 :如 果 a 是 一 个 原始 排序 网 络 , 因 此 a*( 在 二 倒 次 序 下 的 比较 右 ) 也 是 。 关 
于 (c) 的 推广 和 另 一 个 证 明 , 参 见 N.G. de Bruijn,Discrete Math. , 9 (1974) ,333 一 
339;Indagationes Math. 45 (1983) ,125 一 132。 在 后 一 篇 论文 中 ,de Bruijn 证 明 ,一 
个 原始 排序 网 络 对 多 重 集合 12 1, ,zz 的 所 有 排列 排序 当 且 仅 当 它 对 单 排 
列 m5m…15 1 进行 排序 。 对 于 排列 x 和 y 定义 的 关系 二 么 y 指 的 是 存在 一 个 标准 网 
络 a 使 得 x = ya ,这 叫做 Bruhat。 限定 于 原始 a 的 类 似 关系 称 为 弱 Bruhat 次 序 ( 参 
见 5.2.1-44 题 的 答案 )。 

37. 只 需 证 明 :如 果 每 个 比较 器 被 一 个 交换 操作 所 代替 , 则 我 们 便 得 到 一 个 “ 反 
序 网 络 ”, 它 把 (x ,… ,x, ) 转 换 成 为 (zx,,，… ,x1)。 但 在 这 种 解释 之 下 ,不 难 来 跟 中 
zx; 的 路 线 。( 注 意 ,排列 x=(1 2)(3 4)…(2n-1 2n)(2 3)(4 5) (27 一 2 

21-1)=(135 … 272-1 2n 22-2 … 2) 满 足 x*=(1 2n)(2 

2n 一 1)…(n 一 1 n))。1954 年 H. Seward 简略 地 提 到 了 奇偶 转 置 排序 ; 它 曾 经 为 
A.Grasselli[ TIRE Trans . EC- 11 (1962 ) ,483] 和 为 Kautz,Levitt 和 Waksman[lIEEE 
Trans. C-17(1968),443 一 451] 所 讨论 。 关 于 这 个 网 络 的 反射 性 实际 上 老 早 就 由 HH. 
E. Dudeney 在 他 的 “青蛙 难题 "之 一 给 出 了 [Strand 46 (1913),352,472; Amusements 
in Mathematics (1917) ,193 | 。 

38 .使 用 算法 5.1.4 I, 把 元 素 ,ziN 插入 到 开始 时 为 空 的 图 表 中 ,但 有 一 个 
关键 码 性 的 改动 :在 步骤 13 中 仅 当 zx; 关 Pi -1) 时 才 置 Pj;<-x;。 当 输入 i…in 定义 
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一 个 原始 排序 网 络 时 ,可 以 证 明 , 仅 当 x;+1= P; 时 ,在 该 步骤 中 x; 才 将 等 于 
Pi(; -1)。( 算 法 中 市 括 弧 的 断言 需要 加 以 修改 。) 如 同 在 定理 5.1.4A 中 那样 ,在 把 ; 
插入 到 PP 中 之 后 , 置 Q, 一 j。 在 NN 步 之 后 ,图 表 卫 将 总 是 在 行 r 中 包含 (+r,r+1， 
,nn 一 1) ,而 Q 将 是 这 样 一 个 图 表 , 通 过 向 后 进行 ,可 以 由 它 重新 构造 出 序列 六 … 
in 来 。 
例如 , 当 n=6 时 ,序列 jinv=4 1 3 2 4 3 5 4 3 1 2 3 5 
1 4 对 应 于 








参考 文献 :Q 的 转 置 对 应 于 补充 网 络 [2 一 说 :7 一 站 十 [17 一 IN :7 一 71N 十 
1j]。A.Lascoux 和 M.P.Schiitzenberger,Comptes Rendus Acad. Sci. (1 ) 295 (Paris, 
1982) ,629~633;R.P. Stanley ,Eur.J. Combinatorics $§ (1984),359~372;P.H. Edel- 
man 和 C.Greene,Advances in Math 63 (1987) ,42 一 99。 原 始 排序 网 络 的 图 式 也 对 
应 于 二 维 凸 性 的 虚拟 线 和 其 它 抽 象 的 安排 ;关于 进一步 的 信息 ,请 见 D.E.Knuth， 
Lecture Notes in Comp. Sci. 606 (1992 ) 。 

39. 例 如 , 当 n=8 时 ,这 样 一 个 网 络 必须 包括 这 里 所 示 的 比较 器 ; 

所 有 其 它 的 比较 需 对 10101010 都 是 低 效 的 。 然 后 像 在 习题 37 中 那样 ， 
行 | n/31…|2n/31=3…6 对 4 元 素 进 行 排序 。( 本 习题 是 以 David B. 
Wilson 的 思想 为 基础 的 。) 

注意 :在 对 于 一 个 给 定 的 二 进 数 串 进 行 排序 的 极 小 长 度 原始 排序 网 
络 和 其 形状 由 该 二 进 数 串 定义 的 弯曲 通路 所 限定 的 Young 氏 图 表 之 间 
有 一 个 一 一 对 应 。 因 此 ,习题 38 产生 对 (10)" 进 行 排序 的 { ”2 | 个 比较 器 的 愿 
始 网 络 和 对 nj2+1 个 任意 数 进行 排序 的 {” 1 和 的 一 


一 对 应 。 如 果 一 个 原始 网 络 对 二 进 数 串 1”0” 进行 排序 , 则 我 们 可 以 作 一 个 更 强 
的 断言 :对 于 1 三 kn/2, 在 行 & 直到 +n/2( 含 & 和 k+n/2) 上 的 子 网 络 组 成 的 所 
有 它 的 一半”, 都 是 排序 网 络 。( 也 可 参见 de Bruijn 的 定理 ,在 习题 36 的 答案 中 引 
用 了 它 。) 

40. 通 过 应 用 尾部 不 等 式 到 H. Rost 的 一 篇 论文 (Zeitschrift fiir Wahrschein- 
lichkeit Ce und Verwandte Gebiete 58 (1981) ,41 一 S$3) 中 的 命题 7 的 有 趣 构 造 ， 


并 置 6= 本 ,= 于 和 /=47，, 即 可 得 出 。 
实验 证 明 ,达到 任何 原始 排序 网 络 的 预期 时 间 一 不 必 是 气泡 排序 一 非常 接近 于 
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2n“。 奇 怪 的 是 ,R.P. Stanley 和 S.V.Fomin 已 经 证 明 ,如 果 以 下 面 这 样 一 种 方式 来 
非 均匀 地 选择 比较 器 [ 训 : 吉 +1], 即 训 =j 以 有 [2 的 概率 出 现 , 则 相应 的 预期 时 间 


就 精确 地 成 为 [”) Hf, 。 
2 人 (0 

42. 从 某 个 输入 到 最 大 的 输出 ,必定 存在 长 度 为 | lg ”| 或 更 长 的 一 条 通路 (考虑 
定理 A 中 的 mm, ); 当 把 该 输入 置 成 ce 时 ,在 这 条 通路 上 的 比较 器 有 一 个 预先 确定 的 
特性 ,而 且 剩 下 的 网 络 必 定 是 一 个 (7 -=- 1) 排序 舌 。LIEEE Trans on Computers ，C- 
21 (1972 ) ,612 一 613 。| 

45. 在 /7 级 之 后 ,输入 zi 可 以 至 多 在 2’ 个 不 同 的 位 置 上 。 在 合并 完成 之 后 ,z， 
可 以 在 n+1 个 不 同 的 位 置 上 。 

46. [J. Algorithms 3 (1982),79 一 88; 以 下 的 男 一 个 证 明 是 由 V.S. Grinberg 给 
出 的 。j 我 们 可 以 假定 1 三 m 三 n 而 且 每 一 阶段 作 m 次 比较 , 令 1=|(n 一 mm)/21, 并 
假设 我 们 正在 把 zj 三 … 三 x 同 yy 三 … 达 yy 合并 。 一 个 对 手 可 以 迫使 [lg(mr+n)| 
阶段 进行 如 下 :在 头 一 个 阶段 , 某 个 x; 同一 个 元 素 ys 作 比 较 , 其 中 我 们 有 & 委 /7 或 
宇 1+ mm。 这 个 对 手 判 定 miI< yi 和 2zri>y; 而 且 如 果 & 和 !/, 则 立 > 交 ,而 如 果 
k 宇 lL+ m, 则 zx;< ys。 剩 下 的 任务 实质 上 是 把 zx 同 yii1 研 … 研 yy 或 者 同 y1 三 … 三 
只 -1 合并 。 所 以 至 少 剩 下 min(n 一 kt+1,k) 之 min(n 一 了 +1,l+m)=| (m+n)/2| 
个 结果 。 因 此 至 少 有 |lg| (m+n)/211=|Tlg(mr+n)| 一 1 个 随 继 的 阶段 是 必需 的 。 

48. 设 v 是 (xza); 的 最 小 元 素 , 并 设 > 是 D, 中 任何 一 个 这 样 的 向 量 , 它 使 得 
(y'0); =0 蕴涵 着 (xa), 包含 一 个 三 w 的 元 素 ,(y'0) = 1 蕴涵 着 (xa); 包含 一 个 
> 的 元 素 。 如 果 a= BLp:gj, 则 有 可 能 找到 一 个 满足 同样 条 件 , 但 是 以 8 代替 a 
的 并 且 使 得 yp:g]=y' 中 的 向 量 >。 从 (> =1, (yo )=0 开 始 , 我 们 最 终 
有 满足 所 需 条 件 的 向 量 y= y'”。 

G.Baudet 和 D.Stevenson 已 经 发 现 ,把 习题 37 和 48 结合 在 一 起 ,产生 出 在 & 
个 处 理 器 上 只 需 (nlnn)/k&+ O(n) 个 比较 的 简单 的 排序 方法 :首先 对 大 小 为 三 | n/k| 
的 个 子 文件 排序 ,然后 使 用 阶 的 "奇偶 转 置 合并 "在 & 次 扫描 中 合并 它们 [IEEE 
Trans . C-27 (1978) ,84 一 87 | 。 

49.(zx 过 y) 迪 zx 和 x (y 过 xz) 两 者 都 表示 多 重 集合 x+ y+ 的 最 大 的 mm 个 
元 素 ;(z 会 y) 公 xz 和 zz 公 (y 会 z) 表 示 最 小 的 mx 个 。 如 果 zx=y=z=10,1), 则 (x 
从 xz)Y(y 会 xz)=(z 人 会 y)yY(z 公 zz)Y(y 会 xz)=140,0|, 而 {10,0,0,1,1,1| 的 中 间 元 
素 是 10,1|。 三 个 元 素 的 排序 网 络 和 习题 48 的 结果 意味 着 x + y+ xz 的 中 间 元 素 可 以 
表达 成 ((z 过 y) 会 xz) 六 (zx 会 y) 或 ((z 会 y) 光 xz) 会 (x 六 y) 或 者 在 这 些 表达 式 中 排 
列 z,y,z 后 所 得 到 的 任何 其 它 公 式 ( 对 于 中 间 元 素 似 乎 没有 “对 称 ” 的 公式 )。 

50. 等 价 地 ,由 定理 2Z, 我 们 必定 能 找到 满足 在 [0.…1] 中 对 有 理 值 x ,y 的 操作 
yy=min(z+y,l),z 从 y=max(0,z+y-1) 的 所 有 恒等式 。[ 这 好 比 是 由 装 满 
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的 杯子 中 倒 出 尽 可 能 多 的 液体 到 装 满 y 的 杯子 中 的 操作 ,这 是 J.M. Pollard 指出 
的 ]。 所 有 这 些 恒等式 可 由 四 个 公理 的 一 个 系统 和 Lukasiewicz 的 一 个 多 值 逻 辑 推 
导 规 则 得 到 , 见 Rose 和 Rosser,Trans. Amer. Math. Soc. 87 (195$8) ,1 一 $3 。 

51. 设 a = 二 ali:jj, 并 设 & 是 一 个 关 i,j 的 指标 。 如 果 对 所 有 z,(za) ;所 
(za); 则 (za ); 硅 (xa ); 如 果 对 所 有 z,(za)x 委 (za); 且 (xa)i 三 (xa);, 则 当 a 
被 代 之 以 a 时 同样 的 事实 成 立 ; 如 果 对 于 所 有 的 zx, (zxa); 达 (xa);,; 则 (za ), 达 
(za );。 这 样 我 们 看 到 ,a 至 少 有 和 a 一样 多 的 已 知 关系 ,如 果 [i:j] 不 是 元 余 的 ， 
则 还 多 加 上 一 个 [Bell System Tech.J. 49 (1970) ,1627 一 1644。] 

52.(a) 考 虑 对 诸 0 和 诸 1 排序 。 设 w= zo+zi+…+xzwe 这 个 网 络 失效 当 且 
仅 当 在 完备 的 N- 排 序 之 前 w 三 t 和 xzo=1。 如 果 在 这 时 zo=1, 它 必定 开始 时 已 是 
1 了 ,而 且 对 于 1 入” ,我 们 必定 在 开始 时 就 有 ,对 于 0 三 km ,zx,,_ 142m%4=1 或 
者 对 于 0 委 & 委 M ,x2j;42m4 一 1; 因 此 w 之 1+ (m+1)n=t。 所 以 失效 意味 着 对 于 1 
hm,w=t 和 ;三 X42ww4 以 及 对 于 1 jn, x, = x2;-_1, 而 且 对 于 lj),， 
特殊 的 子 网 络 必然 把 这 样 的 输入 转换 成 使 得 x ;2 ;= 1。 

(b) 例 如 ,对 于 (y V ywV 责 ) 人 ( 克 VwV 责 ) 人 … 的 特殊 的 子 网 络 ,利用 
Zz2i-1+252 和 xzoj+2i 来 表示 在 第 & 个 短 句 中 的 y 和 y ,以 及 用 x,,, +42,+4 来 表示 该 短 
句 本 身 , 则 可 以 是 

[1l+2n:2mnt+2n+1][3+2n :2mn+2n+1|l[6+2n :2mn +272 二 1| 

[4+42 :2mn+2n+2][5+4n :2mn +2n +2][8+4n :2mn+2n 十 2]… 

53. 按 照 下 列 规 则 来 画 红 线 或 蓝 线 


如 果 imod 4 是 则 在 情况 (a) 中 的 线 i 以 及 情况 (0) 中 它 是 


0 红 红 
1 蓝 红 
2 监 监 
3 红 蓝 


现在 观察 由 两 个 分 开 的 网 络 组 成 的 网 络 的 涉 1 一 1 级 ,这 两 个 网 络 一 个 是 对 于 
2' “条 红线 的 ,而 另 一 个 是 对 于 2: :条 蓝 线 的 。 如 同 在 双 调 或 奇 -偶合 并 中 那样 ,在 
第 上 级 上 的 比较 器 完成 一 个 合并 网 络 。 这 就 建立 了 对 于 &= 1 的 要 求 的 结果 。 
红 蓝 分 解 也 确立 了 &=2 的 情况 。 因 为 如 果 输 入 是 4 有 序 的 , 则 红线 包含 2 有 
序 的 2 个 数 ,对 于 蓝 线 也 一 样 ,因此 在 上 -1 级 之 后 ,我 们 得 到 
Z0y0y1Z1Z2y2y37Z3…( 人 情况 (a) ) 或 zozlyoylz2z3y2y3… (情况 (b) ) 
最 后 结果 
(zo 人 人 yo) (zxo V yo) (yl 人 人 X1) (yl V x1) 或 
Xo(xl 人 y0) (Xi V yo) (yi 和 人 Z2) (yi V X22) 
* 048 ， 
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然 是 2 有 序 的 。 

现在 对 于 & 之 2 ,我 们 可 以 假定 & 委 zi。 头 上 -R+2 级 分 解 成 242 个 大 小 为 
2 “分 开 的 网 络 。 由 &=2 的 情况 知 ,它们 每 一 个 都 是 2 有 序 的 ;因此 在 上 -&+2 
级 之 后 这 些 线 是 2 有 序 的 。 随 后 的 级 显然 保持 为 24 1 有 序 的 ,因为 它们 有 阶 
2 “的 “垂直 的 ”周期 。( 我 们 可 以 想像 在 -1, -2,… 线 上 的 - co 和 在 22,2:+1,… 线 
上 的 + 0%)。 

参考 文献 :网 络 (a) 首 先是 由 M.Dowd、Y.Perl\L. Rudolph 以 及 M. Saks,JACM 
36 (1989),738 一 759 引进 的 ;网 络 (b) 是 由 E.R.Canfield 和 S. CG. Williamson ,Linear 
and Multilinear Algebra 29 (1991) ,43 一 51 引进 的 。 指 出 这 样 一 点 是 有 趣 的 ,在 情况 
(a) 中 ,我 们 有 Pa = G, ,其 中 G, 在 习题 32 中 定义 [Dowd 等 ,定理 17]; 因 此 ,DD, 的 
映像 本 映 不 足 于 表征 一 个 周期 网 络 的 特性 。 

54. 下列 由 Ajtai、Koml6s 和 Szemerédi[FOCS 33 (1992),686 一 692] 给 出 的 构造 
表明 如 何 使 用 四 级 mx“ 排序 器 来 对 mm” 个 元 素 进 行 排序 :我 们 可 以 假设 ,被 排序 的 元 
率 是 诸 0 和 诸 1; 对 于 0 过 a,b,c<m 令 线 被 编号 为 (a ,b,c)=am”*+bm+c。 头 一 
级 对 于 0 三 < m ,对 线 |(a,b5(b5+ 衣 ) mod m 10 二 a,b<m| 进 行 排序 ; 令 a 是 mm? 
条 线 的 第 & 组 中 1 的 个 数 。 第 二 级 对 于 0 三 < m 对 线 |(a,65,k)|0 壹 a,b5<m| 进 
行 排序 ;于 是 在 第 组 中 1 的 个 数 征 


-| 


而 且 由 此 得 出 2 过 和 +1 ,和 委 0+1 ,6 -1 和 bo+1。 在 第 三 级 中 ,对 于 0 二 < 
m ,我 们 对 线 1(k,a,5)10 三 a ,6b< m1 进行 排序 ;在 第 组 中 1 的 个 数 为 


C (RE- 2D 


如 果 对 于 j<k,0< cori<m?, 我 人 有 过 (”， ] 且 =0。 类 似 地 ,对 于 j>+ 
1, 如 果 0< c < 和 ,我 们 有 om 一” 和 c) 三 0。 因 此 ,对 于 0<k<m, 对 
线 mk mt |”，。 ) -1 进行 排序 的 第 四 级 将 完成 这 个 排序 。 

由 此 得 出 ,四 级 六 排序 器 将 对 了 (mm) =| V7 元 J 个 元 素 进 行 排序 ,而 且 16 级 将 对 


f(A(m)) 个 元 素 进 行 排序 。 这 就 证 明了 所 述 结果 。 因 为 当 mx >24 时 , f(f(m))> 
mo 人 ,所 以 我 们 大 概 可 以 用 比 16 级 少 得 多 的 级 来 做 这 一 工作 。) 


5. [如 有 果 已 (2) 表 示 在 一 个 排列 网 络 中 所 需要 的 极 小 开关 数 ， 
风口 P(n) 宇 [lgn!1。 通 过 稍微 推广 L.J.Coldstein 和 S.W. Leib- 
holz 给 出 -的 一 个 构造 ,IEEE Trans .EC-16 (1967) ,637 一 641, 人们 
能 够 证 明 P(n) 三 (PL n/2.j)+P(n/21)+n 一 1, 因 此 ,对 所 有 的 
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n,P(n) 达 B(n), 其 中 B(n) 是 等 式 5.3.1-(3) 的 二 又 插入 随 数 。M.W.Green 已 经 
证 明 ( 未 发 表 )P(5)=8]。 

56. 事 实 上 , 当 x 有 kk 个 0 时 ,我 们 可 以 归纳 地 构造 a, 使 得 ras =0 
101” “~!。 基 础 情况 ajo 是 空 。 否 则 ,下 列 四 种 情况 中 至 少 有 一 种 适用 ,其 中 y 未 被 
see ew we TN 2 (2)x= yl,a, = 
ol Lm) le (I Uy m2 
Syma 2 
1 |, 从 a 得 到 网 络 a* 。[ 参 见 郑 文 祯 和 B. Ravikumar,Discrete Math. 81 (1990) ,1 一 


9]。 这 个 构造 使 用 了 |[”) - 工 个 比较 器 ,可 以 使 用 更 少 些 吗 ? 


57.[ 见 朱 洪 和 R.Sedgewick,STOC 14 (1982) ,296 一 302。] 通过 归纳 法 可 以 容 
易 地 验证 所 述 的 延迟 时 间 。 但 当 A(0,n)= A(m,0)=0 时 ,分 析 递 推 式 


A(m,n) = A([m/24,Tn/21) + A(m/21,Ln/2))+ | m/21l+|n/21|-=1 


的 问题 更 困难 。 

双 调 合并 作 B(m,n)=C (m+n) 次 比较 ;参见 (15)。 因 此 我 们 可 以 使 用 
Em/2j+nf/214,Tm/21+Ln/2j= {LCm+n)/24,1(m +n)/21} 的 事实 来 证 明 
B(m,n)=B(m/2j,[Tn/21)+ BOm/21,Ln/21)+L(m +n)/2]。 于 是 由 归纳 法 
A(m,n)B(m,n)o 

今 D(m,n)=Cm+t+l,nt+l1)+CC(m,n)-C(mt+1l,n)-C(m,n+t+1)。 我 
们 有 DD(0,n)=D(m,0)=1 以 及 当 m+n 为 奇数 时 D(m,n)=1。 否则 m+ 为 
偶数 和 mn 宇 1, 而 且 我 们 有 D(m,n)=D(Lm/2j4,Ln/214) 一 1。 因 此 ,对 于 所 及， 
n 宇 0,D(m,n) 三 1。 

对 于 A 的 递 推 式 等 价 于 对 于 C 的 递 推 式 ,除非 当 和 ?2 都 为 奇数 时 。 而 且 在 
该 种 情况 下 ,通过 归纳 法 ,我 们 有 A(m,n) 宇 C(L mm/214,| nn/21)+C(| m12|,|Ln/21) 
+[m/21+[ Tn/2|1-1= Cm,n)+1-D(Lm/214,Ln/21) 宇 C(m,n)。 

命 1=[lg min(m +n)]。 对 于 0 二 <1 ,在 偶 奇 递归 的 级 上 ,对 于 0 过 j <24 
我 们 实施 大 小 分 别 为 (mas,na)= (LCm+j)/2*],L(n+2* 一 1 一 7)/2* |) 的 2° 个 合 
并 。 递 归 的 费用 ,ma/21+Tnx/21-1), 是 fi(m)+ fi(n) 一 2 ;我们 可 以 写 
fn)=max(n%,n 一 n%), 其 中 nn%=2*| n/2**!1+1/2j] 是 最 接近 于 n/2 的 2” 的 售 
数 。 由 于 0 乏 f(n) 一 n/2 志 2* ,所 以 对 于 级 0 到 -1 递归 的 总 费用 是 介 于 


(m+n)l-2! 入 (m+n)1 之 间 。 


最 后 ,如 果 光志 ,对 于 0 二 j<2'-- mm ,在 级 1 上 的 2* 个 合并 (m,ni) 有 mi = 
0, 对 于 j 的 m 个 其 它 的 值 mr = 1。 由 于 A(1l,n)=n, 因 此 级 / 的 总 费用 是 


DD | + no 





“Oo 
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和 双 调 合并 不 同 , 因 此 偶 奇 合并 ,最 优 比较 次 数 M(m ,2 ) 是 在 O(m+n) 之 
内 。 我 们 的 推导 事实 上 表明 ,A(m,n)= ib(fi(m)+f(n)-2*)+g (m+n) 
-gj(max(m,n)), 其 中 gj(n) 可 以 表达 成 ?60Lk/2i]=Lnf2'j(n 一 2' (La 
+1)) 的 形式 。 

58. 如 果 有 h[k+1]=h[k&]+1, 而 且 文 件 不 是 有 序 的 , 则 在 下 次 扫描 时 对 于 它 必 
然 发 生 某 件 事情 ;由 习题 5.2.2-1, 这 减少 了 反 序 的 数目 ,因此 这 个 文件 最 终 将 成 为 
排 好 序 的 。 但 是 如 果 对 于 1 秋 &< zz ,hlk+1] 宇 h[k&]+2, 则 如 果 最 小 的 键 码 开始 
时 在 Rs 中 ,那么 它 将 决 不 能 移动 到 其 适当 的 位 置 去 。 

59 .我 们 使 用 提示 ,并 认为 Kvii=KNv=…=1。 如 果 在 步骤 7 中 Kjrij+j = 
… 二 Kprmj+; 三 1, 而 且 如 果 对 于 某 个 1>>h[1]+j,K;==0, 则 我 们 必然 有 i<hlm] 
+j, 因 为 1 的 个 数 少 于 n。 假 设 & 和 i 是 使 得 h[k]+j<i<hlgk+1l+j; 以 及 KK; 
=0 的 极 小 值 。 设 s=h[kt+1]+j 一 i; 我 们 有 s<h[k+1] 一 hilkj] 达 ko。 在 第 j 一 s 
步 中 ,必定 至 少 有 R&+1 个 0 已 被 读 写 头 扫描 过 ,因为 K; = Kir441]4;-; 在 该 步 补 置 
成 0;s 步 以 后 ,在 Kir+y， 和 天 ;( 包 含 ) 之 间 ,至 少 剩 和 人 &+1I- s 宇 2 个 0, 同 7 的 极 小 
性 矛盾 。 

第 二 次 扫描 放 好 其 次 -1 个 元 素 , 等 等 。 如 果 我 们 从 排列 N N -1…21 开 
始 , 则 头 一 次 扫描 把 它 变 成 为 N+1-7 N-7p1l N+2-7…N-1l1 N, 因 为 
每 当 1 志 Ah[1]+j 和 hh[m]j+j 志 N 时 , Kr1j4 ;> Ks[m14;; 因 此 这 个 界 是 最 好 的 。 

60. 假 设 h[k+1] 一 s>>h[lk] 和 hh(k) 达 ss; 如 果 最 小 的 键 码 在 R, ,处 开始 , 则 
它 在 位 置 R,(i >>1) 处 结束 。 因 此 h[k+1] 志 2h1k] 是 必要 的 ;由 下 述 定理 的 特殊 情 
况 上 =0, 它 也 是 充分 的 。 

定理 ”如果 x =N, 以 及 如 果 Kj…Kw 是 11,2,…,n1 的 一 个 排列 , 且 如 果 对 于 
1<A<m 和 0 过 7 和 妥 201E+TII 和 有 8111- 则 邓 于 1 过 委 上 +1 一 次 撩 
序 扫 指 将 置 K;= i。( 约 定 , 当 上 0 时 设 hlkjj=)。 

证 明 ”对 t 用 归纳 法 ;如 果 到 步骤 + 时 键 码 1 + 1 不 在 读 写 尖 下边, 则 我 们 可 以 
假定 对 于 某 个 s >0, 它 出 现在 位 置 Rr441111-; 中 ,其 中 hh[k+1] 一 s<hlkj|; 因 此 
h[k 一 tj]+t 一 s>0。 但 如 果 我 们 考察 步 又 1 一;, 则 这 是 不 可 能 的 ,因为 按 假定 这 个 
步骤 将 把 元 素 :+ 1 放置 到 位 置 Rirtr+， 中 ,尽管 至 少 有 上 +1 个 较 低 的 头 正在 
工作 。 | 

(这 个 条 件 对 于 1 =0,1 是 必要 的 ;但 对 于 上 =2 则 不 然 。) 

61. 如果 数 |1,…,231| 正 在 被 排序 , 则 上 道 习 题 中 的 定理 表明 11,2,3,41 找 到 了 
它们 真正 的 目的 地 。 当 诸 0 和 诸 1 被 排序 时 ,可 以 验证 ,在 步骤 -2,-1 和 0 中 ,不 
可 能 当 所 有 的 读 写 头 都 读 0 时 ,所 有 不 处 于 这 些 头 之 下 的 位 置 都 包含 1; 因此 上 题 的 
证 明 可 被 推广 以 表明 15,6,7| 找 到 了 它们 真正 的 目的 地 。 最 后 ,由 习题 53 中 的 论 
证 ,18,…,23} 必然 被 排序 。 
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63. 当 过 mm -2 时 , 读 写 头 把 串 02110130170…01? “101? 变 成 为 02+1110130170 
…012 “101? -114; 因 此 需要 m -2 次 扫描 。[ 当 读 写 头 在 位 置 1,2,3,5,…,1+ 
2”- ?处 时 ,Pratt 发 现 了 一 个 类 似 的 结果 : 串 021%01? -1012 -10…012 -101,1 过 a 
过 25 1, 变 成 04+11-1012 -1012 -10…012 “101? *4, 因 此 对 于 这 个 头 的 序列 ,在 
最 坏 情 况 下 至 少 需 要 m -|log;m | 一 1 次 扫描 。 后 一 个 头 序 列 是 特别 有 趣 的 ,因为 
写 已 经 被 用 作 P. N. Amstrong 发 明 的 非常 精巧 的 排序 设备 的 基础 。[ 参 见 U. S. 
Patent 3399383 (1965)。Pratt 猜测 ,对 于 所 有 输入 ,这 些 输入 序列 提供 了 真正 最 坏 
的 情况 。] 

64. 在 快速 排序 期 间 ,每 个 键 码 K,,*… KN 都 同 Ki 作 过 比较 ; 设 A=1i IK,< 
Ki ,B= 1j|K;> Kil。 随 后 的 操作 独立 地 对 A 和 B 快速 排序 ;在 快速 排序 和 有 限 
制 的 一 致 算法 中 ,对 于 A 中 的 i 和 B 中 的 j ,禁止 所 有 K;:K; 的 比较 ,而 无 限制 的 一 
致 算法 不 禁止 其 它 比较 。 

在 这 种 情况 下 ,我 们 其 至 可 以 进一步 限制 这 个 算法 ,省 略 情况 1 和 情况 2 使 得 
仅 当 明显 地 做 比较 时 , 才 把 弧 加 到 G 中 ,而 且 当 测试 元 余 性 时 仅 考 虑 长 度 为 2 的 路 
径 。 解 决 这 个 问题 的 另 一 个 办 法 ,是 考虑 6.2.2 小 节 的 等 价 树 插 入 排序 算法 , 它 正 
好 以 相同 的 次 序 进 行 与 一 致 算法 相同 的 比较 。 

65.(a)K。 同 KR 进行 比较 的 概率 ,是 c; 个 其 它 的 特定 键 码 不 处 于 K。 和 Ki 之 间 
的 概率 ;这 是 随机 地 从 11,2,…,c;+2| 中 选择 的 两 个 数 是 相连 的 概率 ,也 就 是 


c: 十 2 
;十 工 / | 
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(b)c; 的 头 n 一 1 个 值 为 0, 然 后 是 (n -2) 个 1,(2 -3) 个 2, 等 等 ;因此 平均 值 是 
2 RR+T1I)=227 1((nt1)/(k+1)-1)=2(n+1)(H,+1 -1)-2n6 

(c) 合 并 的 “两 部 分 构成 的 ”本 性 表明 ,对 于 这 个 序列 来 说 有 限制 的 一 致 算法 和 
一 致 算法 是 相同 的 。 对 包含 顶点 N 的 对 偶 来 说 , 诸 c 分 别 等 于 0,1,…,N 一 2; 所 以 
平均 比较 次 数 同 快速 排序 完全 相同 。 

66. 否 ; 当 N=5 时 ,没有 以 (1,5)(1,2)(2,3)(3,4)(4,5) 结 束 的 对 侦 序 列 会 要 
求 作 10 次 比较 。[ 一 个 有 趣 的 研究 问题 :对 于 所 有 的 N, 试 找 出 一 个 (有 限制 的 ) 一 
致 排序 方法 ,使 其 最 坏 情况 尽 可 能 地 好 ]。 

67.(Gil Kalai 已 经 正式 宣告 使 用 同 他 在 Graphs and Combinatorics 1 (1985),65 
一 79 中 的 论文 有 关 的 方法 ,他 已 给 出 对 于 有 限制 情况 的 极 小 性 的 证 明 。 然 而 ,他 的 
证 明 还 未 被 发 表 。) 

68. 每 次 扫描 时 一 个 项 至 多 失去 一 个 反 序 ,所 以 极 小 的 扫描 次 数 至 少 是 在 输入 
排列 中 任何 项 的 极 大 反 序 数 。 气 泡 排 序 策 略 达 到 这 个 界 , 因 为 每 次 扫描 都 使 每 个 有 
反 序 的 项 的 反 序 计数 减 1( 参 见习 题 5.2.2-1)。 可 能 需要 另外 的 扫描 来 确定 排序 是 
否 完 备 ,但 是 这 个 习题 的 行文 允许 我 们 忽略 这 样 的 考虑 。 
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也 许 不 幸 的 是 ,通过 自动 机 研究 计算 复杂 性 得 到 的 头 一 个 结果 ,是 确定 了 一 个 
排序 的 方法 的 “最 优 性 ” ,而 从 程序 设计 的 观点 看 来 , 它 况 如 此 之 低劣 ! 同 随机 数 生 
成 的 历史 相 类 似 , 当 从 一 个 特定 的 观点 看 来 某 些 生成 程序 是 “最 优 的 ”, 因 而 被 建议 
广泛 采用 时 ,实际 上 却 是 倒退 了 好 多 步 。( 参 见 等 式 3.3.8-(39) 下 面 的 注释 。) 教 鼻 
在 于 最 优 性 的 结果 通常 大 量 地 依赖 于 抽象 模型 ;尽管 这 些 结果 是 非常 有 趣 的 ,但 在 
实用 中 必须 明智 地 来 应 用 它们 。 

[Demuth 曾 考 虑 对 于 一 个 ~ 寄存 器 机 器 (保存 > 的 一 个 因子 ) 和 对 于 一 个 类 图 
灵机 的 推广 。 在 这 种 机 器 中 扫描 方向 可 随意 地 在 左右 和 右 左 之 间 摆 动 。 他 发 现 , 后 
一 种 类 型 的 机 器 可 以 作 直接 插入 以 及 鸡 尾 混 合 排 序 ;但 是 任何 这 样 的 1- 寄存 占 机 人 渍 


平均 必须 通过 至 少 十 ( N? - N) 个 步骤 ,因为 每 步 至 多 使 总 的 反 序数 减少 1。 最 后 他 


考虑 了 7- 寄存 器 随机 存 取 机 器 以 及 极 小 -比较 排序 的 问题 。 他 的 论文 的 这 些 部 分 ， 
已 在 ITEEE Transactions C-34(198$) ,296 一 310 中 重新 印刷 。] 


S.4 


1 .我 们 可 以 省 略 内 部 排序 阶段 ,但 是 一 般 地 这 样 将 会 慢 得 多 ,因为 它 将 增加 每 
块 数据 在 外 存 上 读 和 写 的 次 数 。 

2. 诸 路 段 如 同 在 (1) 中 那样 分 布 ， 然后 市 3 被 置 为 KI: K 2000000; K >000001 机 
及 40000005 开 4000001…… 玉 5o00000。 在 重 绕 所 有 的 带 之 后 ,一 个 "一 路 合并 置 Ti 和 了; 分 
别 成 为 (2) 中 T; 和 T4 的 内 容 。 然 后 Ti 和 T, 被 合并 到 Ts3 ,而 信息 被 复写 回去 并 
再 次 被 合并 ,总 共 进 行 五 次 扫描 。 一 般 地 说 ,这 个 过 程 和 四 条 带 的 平衡 合并 类 似 , 但 
是 在 每 次 合并 扫描 之 间 有 拷贝 扫描 ,所 以 共 实 施 了 两 倍 减 1 次 扫描 。 

3.(a)Tlog, S1。(b)logp S, 其 中 B=vVP(T- 卫 ) 称 为 “有 效 的 合并 能 力 "。: 


T=2P 时 ,有 效能 力 是 P; 当 T=2P - 1 时 ,有 效能 力 是 /PULP-1)=P- 地 到 


长 


Pi i+ O(P™?), 比 3T 稍 小 些 。 


4. 方 T。 如 果 了 是 奇数 而 且 忆 一 定 是 一 个 整数 , 则 [ T121 和 | T/2] 给 出 相同 的 
极 大 值 。 按 照 习 题 3, 最 好 有 P 宇 TP, 所 以 对 于 平衡 合并 我 们 将 选择 P=| T/21。 
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习题 答案 





2. 路 径 06 一 GD 一 (057 一 上 动 一 0 的 将 被 改变 成 为 5 一 GD 一 45 一 057) 。 
( 沿 看 这 条 路 径 我 们 实际 上 进行 了 从 一 个 “气泡 排序 ”!) 

3.and fourscore our seven years/ago brought fathers forth on this/a conceived con- 
tinent in liberty nation new the to/and dedicated men proposition that all are created e- 
qual. 

4.( 这 个 问题 稍微 含混 些 ; 按 这 种 解释 ,在 水 库 快 溢出 之 前 我 们 不 清除 内 存 。) 
and fourscore on our seven this years/ago brought continent fathers forth in liberty na- 
tion new to/a and conceived dedicated men proposition that the/all are created equal。 

5. 假 的 。 对 于 所 有 P 宇 1 ,定义 具有 PP 个 外 节点 的 完备 的 二 叉 树 。 

6. 在 步骤 R6 的 开始 处 插入 “如 果 T= Loc(X[0]), 则 转 到 R2, 否 则 ”并 从 步 又 
R7 删 去 类 似 的 短 句 。 

7. 没 有 输出 ,是 RMAX 一 直 等 于 0。 

8. 如 采 最 初 已 个 实际 的 键 码 的 任何 一 个 是 co , 则 这 些 记 录 将 丢失 。 为 了 避免 
% ,我们 可 以 做 这 个 程序 的 两 个 几乎 相同 的 副本 ; 头 一 个 副本 省 略 包含 在 步骤 R4 中 
的 LASTKEY 的 测试 ,而 且 当 在 步骤 R3 中 头 一 次 有 RQ 关 0 时 它 跳 到 第 二 个 副本 处 。 
第 二 个 副本 不 需要 步骤 R1, 而 且 在 步骤 R3 中 它 决 不 需要 测试 RO。 

9. 例 如 ,假定 当前 的 路 段 是 递增 的 ,而 下 一 个 将 是 递减 的 。 则 算法 R 的 诸 步 又 
除开 下 列 一 处 要 改动 外 ,将 正确 地 工作 :在 步骤 R6 中 ,如 果 RN(T) = RO>RC, 则 颠倒 
对 于 KEY(LOSER(T)) 和 KEY(Q) 的 测试 。 

当 RC 改变 时 ,步骤 R4 和 R6 的 键 码 测 试 应 当 适 当地 改变 。 

10. 令 j 二 LOC(X[j])。 如 果 我 们 首先 置 LOSER(*0)<-Q 以 及 RN(…0) 一 RQ, 则 算 
法 R 的 机 制 确保 了 每 当 我 们 达到 步骤 R3 时 下 列 条 件 为 真 :LOSER(:0),…， 
LOSER(* (PP 一 1)) 的 值 是 1.0,:1,…,*(P 一 1)1 的 一 个 排列 ;而 且 存 在 诸 指 针 
LILOSER(' 7) |RN(*j)=01 的 一 个 排列 , 它 对 应 于 一 个 实际 的 锦标 赛 。 换言之 , 当 
RN(*j) 二 0 时 ,KEY(LOSER(*j)) 的 值 是 无 关 紧 要 的 ;我 们 可 以 在 他 们 当中 对 “失利 者 ” 
进行 排列 。 在 PP 步 之 后 ,所 有 RN(*j) 都 将 非 0, 所 以 整个 树 将 是 一 致 的 。( 对 于 提示 
的 回答 是 “是 的 ”。) 

追求 纯正 者 可 能 抱怨 ,此 算法 比较 未 曾 初始 化 的 KEY 值 。 如 果 这 样 的 行为 太 使 
人 震惊 ,可 以 通过 在 比如 说 步骤 R1 中 置 所 有 KEY 值 成 为 0 而 避免 它 。 

11. 真 。( 两 个 键 码 都 取 自 于 定理 K 的 证 明 中 的 相同 的 子 序 列 。) 

12. 当头 一 个 路 段 已 经 结束 时 ,保留 在 内 存 中 的 键 码 一 般 比 平均 值 更 小 ,因为 它 
们 不 使 它 进 入 头 一 个 路 段 当 中 。 于 是 第 二 个 路 段 可 以 输出 更 多 的 较 小 的 键 码 。 

14. 假 定 在 扫 雪 车 达到 它 的 稳定 状态 后 , 它 处 于 随机 点 u ,0 三 u <1, 雪 突然 停 
止 , 则 倒数 第 二 个 路 段 包含 (1 + 24 - w?)P 个 记录 ,而 最 后 的 路 段 包 含 u2P 个 记录 。 


对 它 乘 以 du 进行 积分 ,就 得 出 倒数 第 二 个 路 段 是 | 2 - 了 | 个 记录 的 平均 时 间 , 最 
后 路 段 是 村 忆 个 记录 的 平均 时 间 。 
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15. 假 的 ;最 后 的 路 段 可 以 是 任意 长 的 ,但 是 仅 当 输入 被 穷尽 ,而 所 有 内 存 中 的 
记录 都 属于 同一 个 路 段 这 种 相当 稀少 的 情况 下 才 有 可 能 。 

16. 当 且 仅 当 每 个 元 素 都 有 少 于 P 个 反 序 (参考 $.1.1,5.4.8 节 )。 考 察 反 序 
表 , 当 NP 时 概率 为 1, 当 N 之 P 时 ,概率 为 P"” 1'PI/N!。( 然 而 在 实际 的 做 法 中 ， 
一 次 扫描 的 排序 并 不 太 罕见 ,因为 即使 当 人 们 怀疑 一 个 文件 是 否 有 序 时 ,作为 一 种 
预防 措施 ,人 们 也 倾向 于 把 这 个 文件 排序 。) 

17 .除开 长 度 为 也 的 最 后 者 外 ,所 有 的 都 恰 有 | N/P | 个 路 段 (“ 最 坏 的 情况 ”)。 

18 .在 第 二 次 扫描 时 没有 什么 变化 ,因为 能 够 证 明 ,对 于 1 委 & 委 忆 , 一 个 路 段 的 
第 上 个 记录 至 少 小 于 前 一 个 路 段 的 P+1 一 & 个 记录 。( 然 而 ,似乎 没有 简单 的 方法 
来 表征 当 P'>>P 时 ,P 路 蔡 代 选择 后 边 接 以 P 路 蔡 代 选择 的 结果 。) 

19. 如 同 在 (2) 的 推导 中 那样 论证 ,h(x,i)dx = KLdt, 这 一 次 对 于 所 有 x 有 
h(x,1)=1+ Kt, 而 且 P= LI。 这 意味 着 x(1)= Lin((I+ Ki)/7), 使 得 当 x(T)= 
L 时 ,我 们 有 KT=(e 一 1)I。 故 从 t=0 起 的 落雪 量 是 (e -1)LI=(e 一 1)P。 

20. 如 同 在 习题 19 中 那样 ,我 们 有 (I+ Ki)dz = K(L -x)di; 因 此 x(1) = 


LKt/(I + Ki)。 水 库 中 积 雪 量 是 LI=P=P = | x()Ka ~ L(KT- Iln((I+ 


KT)/71)); 因 此 KT = al, 其 中 之 2.14619 是 1+ a = ec 的 根 。 路 段 长 度 是 在 0 
过 1 过 工期 间 下 雪 的 总 量 , 即 LKT = aP。 

21. 如同 在 正文 中 那样 进行 ,但 在 每 个 路 段 之 后 ,在 扫 雪 机 再 次 开始 工作 之 前 等 
候 P -- P' 个 雪花 落下 。 这 意味 着 h(x(z),z) 现在 是 KTi 而 不 是 KT, 其 中 人 一 全 
是 额外 的 落雪 所 花费 的 时 间 数 量 。 路 段 长 度 是 LKTi,zx(1) = L(1-e "7.),P = 


T 
LKTie TN, 以 及 P= | X(t)Kdt = P+ LK(T-- 人 TT)。 换 言 之 , 当 对 于 0 三 9 过 


1,P = (1 一 (1 一 0)e)P 时 ,得 到 长 度 为 @eP 的 一 个 路 段 。 

22. 对 于 0 三 1 志 (x 一 1)T,dzrz'h= Kdi(x(t+ 丁 ) 一 x(1)), 而 对 于 («一 1)T< 
t 达 TT,dzx*h= Kdit(L 一 x(t)), 其 中 4 在 扫 雪 犁 的 位 置 处 被 看 作 恒 等 于 KT。 由 此 
得 出 ,对 于 0 过 j 二 &,0 过 wu 志 1,t= (x 一 j 一 u)T, 我 们 有 x(t)=L(1-e* “F;(u)/F 
(kx))。 路 段 长 度 是 LKT, 这 即 是 在 稳定 状态 下 扫 雪 机 接连 两 次 离开 0 点 的 时 间 之 
间 下 雪 的 数量 ;PP 是 在 每 次 扫 雪 机 的 最 后 速度 突变 期 间 清 除 的 数量 , 即 KT(L 

xT 

zx (kT)) = LKTe-9/F(k); 而 且 可 以 证 明 PP = | zx (1)Kdt 有 所 述 形式 。 

[注意 :结果 是 ,对 于 = 0, 所 述 公 式 也 正确 , 当 宇 1 时 ,进入 雪 堆 两 次 的 每 个 

rx-1)T 

路 段 的 雪花 个 数 是 P” = | ” ”xz(1)Kdi, 而 且 容 易 证 明 (路 段 长 度 ) - P + P” = 


( 
0 
(e 一 1)P, 这 是 由 Frazor 和 黄 泽 权 所 指出 的 一 个 现象 ,FF (9) 的 生成 函数 如 此 类 似 于 
习题 5.1.3 -11 中 的 生成 函数 ,这 是 否 巧合 呢 ? 
23. 设 P=pP 有 和 且 g=1-p。 在 积 雪 中 的 最 初 的 bpP 个 雪花 已 经 以 随机 次 序 在 
开头 移 走 之 后 , 头 Tj 个 时 间 单 位 的 落雪 来 自 积 雪 中 剩 下 的 gP' 个 雪花 ;而 且 当 旧 的 
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积 轨 扫 光 时 , 雪 再 次 均匀 落下 。 我 们 选择 Ti 使 得 LKT = gP 。 对 于 0 二: 声 T,， 
h(x,t)=(p+gqt/T1i)g(z), 其 中 g(x) 是 雪 从 位 置 x 落 入 雪 堆 的 高 度 ;对 于 T 了 过 
tT,h(r,t)=g(r)+(t -TI)K。 对 于 0<i 二 TI,g(xz(t)) 是 (g(Ti-z)/T) 
g(xX(t))+(T- TI)K; 而 对 于 工 二 1 过 TT,g(x(1))= (TT-1)K。 因 此 对 于 0 过 1 
全 T,h(r(t),t)=(T- TI)K, 而 且 zi)= 工 (1L-exp( -2T-TD)))。 总 的 路 
段 长 度 是 LK (TT ); 从 雪 堆 重新 又 “循环 ”回去 的 总 数量 是 LKTI( 参 见习 题 
22); 而 且 在 时 间 械 之 后 清除 的 总 数量 是 P= KT(L -x(T))。 

所 以 当 雪 堆 的 大 小 为 (1+(s 一 1)e'/s)P 时 ,这 个 习题 的 假定 给 出 长 度 为 (es/s)P 
的 路 段 。 这 比 习 题 22 的 结果 坏 得 多 ,因为 雪 堆 的 容量 在 习题 22 的 情况 下 是 以 一 个 
更 有 利 的 阶 来 使 用 的 。 

(h(x(t),t) 在 这 样 多 的 问题 当中 都 是 常数 这 一 事实 是 不 足 为 怪 的 ,因为 它 等 
价 于 说 在 系统 的 一 个 稳定 状态 期 间 , 得 到 的 每 个 路 段 的 诸 元 素 是 一 致 分 布 的 。) 

24. (a) 证 明 实 质 上 是 相同 的 ;每 个 子 序列 的 路 段 和 输出 路 段 有 相同 的 方向 。 
(b) 所 述 的 概率 是 路 段 的 长 度 为 n + 1 而 且 它 为 y 所 跟随 的 概率 ; 当 x > y 时, 它 等 
于 (1 一世)"/nl, 而 汝 过 yy 时 , 它 是 (1 -zx)"”/n!l 一 (y 一)"”/n!lo(c) 归纳 法 。 例 如 ， 
如 果 第 n 个 路 段 是 递增 的 , 则 第 ”- 1 个 是 递减 的 概率 为 p ,所 以 头 一 个 积分 适用 。 
(d) 我 们 求 得 f(x) = f(x)-c-pf(1 一 zx) 一 qf(x), 因 此 (x) = 一 2pc, 它 最 
终 导致 f(x) = c(1 一 qr-px’),c = 6/(3+p)ole) 如 果 p>>eg, 则 pe*”+ gel” 


对 于 0 之 zx 达 1 是 单调 递增 的 ,而 且 | | pe + ge -apldz = (p-g)(eP -1) 
<0.43。 如 果 g 达 p<eg, 则 pe + gel* 处 于 2vVpge 和 p+ ge 之 间 , 所 以 
| lpe + gel *— 3(p+ get+2V pae) ldr FD -Vge)? < 0.4; 而 如 果 p < o， 
则 我 们 可 以 使 用 一 个 对 称 的 推理 。 于 是 ,对 于 所 有 的 p 和 g, 有 一 个 常数 C, 使 得 
| lpe aa- Cldr < 0.436 设 83,(z) = (x) -f(z)。 则 3,4(y) =- 


1 1l—y 1 
(1 -ez ez + ge Cdzr + bp| leg (x)dr + | cz (x) dz; 
0 0 y 
因此 如 果 6,(y) 声 o) 则 |56%r1(y) | 过 (1-@ 1) .1.43a, < 0.91a,。(f) 对 于 所 有 
n 之 0,(1 -xz)"/n! 是 路 段 长 度 超 过 的 概率 。 (四 | (pe ges) f(r) dr = 
6/(3 + p)。 
26.(a) 考 虑 具有 7 +r+l 个 元 素 和 7 个 自 左 至 右 极 小 值 的 排列 数 ,其 中 最 右 
的 元 素 不 是 最 小 的 。(b) 借 助 于 附录 B 中 关于 Stirling 数 的 定义 ,利用 


R 
Dh 
1cntkh—r 7 一 广 一 工 
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的 事实 。(c) 把 -+ 加 到 均值 上 ,并 且 利用 忆 ,>o| ” ， | 十 -1 +r+1)!=1 


这 一 事实 ,得 到 ,20| ”|/(n+r-D! 

(b) 中 的 公式 是 由 P. Appell,Archiv der Math. und Physik 65 (1880) ,171 一 173 
给 出 的 。 碰巧 我 们 有 | | ”| | = (六 + 有 JITzktxr]er) ,其 中 f(z)= z2+ x’/3+…= 
-zlin(1-z)-1; 因 此 c =[z](r+1l+rz))e ,有 个 循环 的 ”个 对 象 的 去 
安排 ,有 时 以 1” 表示 之 , 它 等 于 | ， ;参见 J]. Riordan,An Introduction to 

之 2 
Combinatorial Analysis (Wiley ,1958), S 4.4。 

27. 对 于 0 过 9 过 1, 当 PI/IP=2(e -1+09)/(1-20+9 +20e“) 时 ,稳定 状态 
平均 路 段 长 度 将 是 2P/(1 -20+ 0 +20e “)。|[ 参 见 Information Processing Letters 
21 (198$) ,239 一 243 | 。 

Dobosiewicz 也 发 现 ,我 们 甚至 可 以 更 久 地 继续 采用 替代 选择 机 制 ,因为 我 们 可 
以 从 雪 堆 队 的 前 端 输入 同时 从 它 的 后 端 输出 。 例 如 ,如 果 P =.5P 而 且 我 们 继续 
采用 替代 选择 直到 当前 的 路 段 包含 .209P 个 记录 为 止 , 则 通过 这 个 修改 平均 路 段 长 
度 从 大 约 2.55P 增加 到 大 约 2.61P。 如 果 P =P, 而且 我 们 继续 采用 替代 选择 直 
到 在 当前 路 段 仅 剩 下 .314P 个 记录 为 止 ,平均 路 段 长 度 从 eP 增加 到 大 约 3.034P。 
[参见 Comp. 了. 27 (1984) ,334 一 339, 其 中 还 给 出 一 个 甚至 更 有 效 的 称 作 “合并 替代 ” 
的 方法 。] 

28. 对 于 多 路 合并 ,问题 比较 小 ,因为 PP 保持 为 常数 ,而 且 在 每 个 文件 上 请 记录 
被 顺序 地 处 理 ; 但 当 形 成 初始 路 段 时 ,我 们 最 好 依照 记录 的 长 度 来 改变 内 存 中 记录 
的 个 数 。 利 用 如 2.5 节 所 述 的 动态 分 配 策略 ,我 们 能 保持 装 满 整 个 内 存 那 样 多 记录 
的 一 个 堆 。M. A. Goetz [Proc. AFIPS Joint Computer Cont. 25 (1964) ,602 一 604 ] 已 
经 提出 了 另 一 个 方法 ,把 每 个 记录 分 成 为 被 链接 在 一 起 的 固定 大 小 的 部 分 ;它们 在 
树叶 处 占有 空间 ,但 是 仅仅 前 导 部 分 参加 比赛 。 

29 .顶层 的 24 个 失利 者 节点 进 到 对 应 的 宿主 位 置 。 剩 下 的 失利 者 节点 由 每 个 
有 2" 一 1 个 节点 的 2 个 子 树 组 成 ;它们 以 对 称 的 次 序 被 指定 到 宿主 节点 中 , 即 最 左 
子 树 进 到 最 左 宿 主 节 点 去 ,等 等 。[ 参 见 K. Efe 和 N. Eleser,Acta. Informatica 34 
(1997) ,429 一 447 。] 

30. 假 设 宿主 节点 的 1 个 保持 完全 的 2"** 节 点 失利 者 树 的 一 个 连通 的 2” 市 反 
子 图 。 对 于 1 过 /三 n+ 该 树 在 级 0 有 一 个 节点 而 且 在 级 ! 有 2 个 节点 。 其 根 

一 在 1 宇 1 级 处 的 一 个 子 树 有 22+4+1 一 1 个 节点 ;因此 上 个 不 相交 的 2” 个 节点 的 于 
树 的 根 必定 全 都 在 壹 & 的 级 上 。 而 且 这 些 子 树 的 每 一 个 在 级 & 上 必定 至 少 售 一 个 
节点 ,因为 在 <k 的 级 上 仅 有 2271<22" 个 节点 。 由 此 得 出 ,上 委 2 ,但 由 (ii) 和 
(iii) ,在 宿主 图 中 的 边 数 至 少 是 :+2(2* 一 1) 一 1, 因 为 至 少 有 这 么 多 的 失利 者 市 扩 ， 
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它们 的 父 节 扣 在 这 个 宿主 中 有 一 个 不 同 的 映像 。 
k 是 必要 的 : 当 nk 一 1 时 ,有 一 个 含 2*+2* ! -2 个 边 的 适当 的 宿 
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2. 在 头 一 个 合并 阶段 之 后 ， 所 有 剩 下 的 虚拟 路 段 都 在 磁带 天 上 ,而 且 它们 至 多 
有 个 站 。 因 此 在 第 二 次 合并 阶段 期 间 它 们 全 都 不 出 现 。 

3. 我 们 有 (DL1],DL2],…,D[T])= (a a-pyan an pa 一 an) 所 以 
这 个 条 件 从 诸 a 是 非 减 的 这 一 事实 得 出 。 这 一 条 件 对 于 这 个 算法 的 正确 性 是 重要 
的 ,因为 在 步骤 D2 和 D3 中 DL[j+1] 减 值 的 次 数 决 不 比 D[j ] 减 值 的 次 数 更 多 。 

4. 由 于 (3),(1 一 z 一 … 一 z*)a(z)=1。 而 且 1(z)= 5,si(a, + 6,+c,+d,+ 
en)z =(z+t+tr a(z)+ (z+ + ri)a(z)+ + xa(z)= (Sz+42z :+3z3+ 
2x“ + 2 ) al(z)。 

5. 设 gj(z)=(z-— 1)f,(z)= z?1'1 一 2z? 十 1, 而 且 设 h,(z)= xz — 2z?, 
Rouche 定理 [J. Ecole Polytechnique 21,37 (18$8) ,1 一 34] 告 诉 我 们 ,倘若 在 圆 上 
[PC(z)|>12(z)-8(z)| =1 则 刀 (z) 和 g(z) 在 圆 |=| =1+e 内 有 相同 个 数 
的 根 。 如 果 8 ">e>0, 我 们 有 |h,(z)| 宇 (1+e)?(1-e)>(1+$ 1)?(1-$) != 
1。 因 此 g, 有 绝对 值 过 1 的 p 个 根 。 它 们 是 不 同 的 ,因为 ged( g(x),g%(z)) = 
gcd(gp(z),(p+1)z—-2p)=1。 LAMM 67 (1960),745~752,] 

6. 设 co0= 一 ap(a )/q (a “)。 则 对 于 某 个 R>|a| ',p(z)/q(z)-co/(1- 
az) 在 |z| 三 R 中 解析 ;因此 在 [xz*]p(z)/g(z)=coa”+O(R ")。 于 是 ,ln S=nn 
na+t+lnco+O(aR) ”); 而 且 n= (ln S/In a)+O(1) 剖 涵 着 O((aR)”")= 
O(S “)。 类 似 地 , 设 c1=a’p(a ')/g (a ')?,cy = -ap (a ')/g (a 1!)*+ap 
(a )q (a )/q (a ,并 考虑 p(xz)/q(z)?-c/(l -az)’ -cl(l- az)。 
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7. 令 a=2zx 和 z= 一 1/2**1。 于 是 x?''= x?+xz, 所 以 由 等 式 1.2.6-25), 我 
、 、 ]—k _ _ FA- 
们 有 收银 级 数 mw=23kzo 211-8p)=2-2?-p2 1+0(p'2 7)。 


注意 :由 此 得 出 , 当 p 增加 时 ,习题 6 中 的 量 6 变 成 近似 于 logs S。 类 似 地 ,在 大 
量 的 磁带 上 ,对 于 表 $ 和 表 6 两 者 ,系数 vc 趋 于 1/(($+2)ln 8)。 

8 .显然 ,对 于 思 <0,NIO =1,N4O =0, 而 且 通过 考虑 对 于 头 一 个 和 式 的 不 同 
可 能 性 , 当 mx >0 时 ,我 们 有 N= N41+ + Npo 因此 N= Fp-1 
[Lehrbuch der Combinatorik :Teubner,1901),136~137,| 

9. 如 果 有 1 的话 ,考虑 最 左边 的 那个 0 的 位 置 ,我 们 求 得 KM = FP4,。 

注意 :在 这 样 的 0 和 1 的 序列 和 习题 8 中 考虑 的 m+1 的 表示 之 间 , 有 一 个 简 
单 的 一 一 对 应 :把 一 个 0 放置 在 这 个 序列 的 右 端 ,并 观察 所 有 0 的 位 置 。 

10. 引 理 :如 果 nn 三 Fl)+… + 下 (是 这 样 一 个 表示 ,而 且 jj >…>jp, 则 我 
们 及 < FI 。 证 明 :如 果 六 < P, 则 结论 是 明显 的 ;否则 设 是 使 > 训 +1+1 的 
极 小 者 ;我 们 有 有 <p, 而 且 由 归纳 法 Fi) +… 二 人 <FI?) ,因此 n<F ”+…+ 

(p) (p) 
大 六 开 / 


Jit+1l?° 

现在 可 对 n 用 归纳 法 证 明 所 述 的 结果 。 如 果 ”>0, 则 设 ) 是 使 得 Fi 外 二 的 
极 大 者 。 引 理 表 明 ,n 的 每 个 表示 必须 由 FI? 加 上 n -Fi?' 的 一 个 表示 组 成 。 由 归 
纳 法 ,- F\?) 有 所 希望 形式 的 一 个 惟一 表示 ,而 且 这 个 表示 不 包括 所 有 的 数 
Fi ,… ,F241, 因 为 j 是 极 大 者 。 

注意 :在 习题 1.2.8-34 中 已 经 考虑 了 p=2 的 情况 , 它 是 由 E.Zeckendovf 给 出 
的 [参见 Simon Stevin 29 (1952),190 一 195]。 从 的 表示 进 到 n+1 的 表示 ,有 一 个 
简单 的 算法 , 它 加 工 0 和 1 的 序列 cj cl1co, 使 该 序列 满足 n 二 >) cF$?,: 例 如 , 如果 
p= 二 3, 则 我 们 考察 右边 的 诸 数 字 , 把 …0 变 成 为 …1,…01 变 成 为 …10,…011 变 成 为 
…100; 然 后 如 果 需 要 ,就 进位 到 左边 ,以 “…1000…” 代 震 “…0111…”。( 见 习题 9 中 
按 此 次 序列 出 的 0 和 1 的 序列 ,) 一 个 类 似 的 数 系 ,已 为 W.C.Lynch 所 研究 LFi- 
bonacci Quarterly 8 (1970),6~22| ,他 发 现 了 一 个 非常 有 趣 的 方法 ,使 它 既 文 配 一 个 
多 阶段 排序 的 分 布 阶段 ,也 支配 合并 阶段 。 

12 .第 到 次 赛 在 它 的 诸 行 上 逐次 包含 对 于 级 &-4 到 有 的 完全 分 布 ,最 大 的 元 素 
在 右边 。 

13. 对 级 用 归纳 法 。 

14.(a) 2(1)=1, 所 以 假定 有 >1。 定 律 Ts = TO-Dt 二 TT(; -Pp)(k-1) 
表明 Tv 用 Ti 当 且 仅 当 T pu bn 和 To bs。 设 -是 任意 正 整数 ,并 设 ”是 
使 TD>ToeenD 之 极 小 者 ; 则 对 于 所 有 n 宇 nn ,TO-)(4-D 之 T(x-1), 因 
为 对 于 n 之 n(k 一 二 ) 十 -~, 这 个 关系 是 显然 的 ,而 且 否 则 Tn- -DD 宇 Tor- (DD 宇 
Tit4-D 宇 T(r_-1)o (b) 对 于 r= 一 n 的 同样 论证 表明 ,Ti < Tw 缠 涵 对 于 所 有 
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J>0,To 和 TO Di 因此 这 个 递 推 式 蔓 洱 对 所 有 了 70 和 & 之 & ,Tj)4 研 
TDxe (c) 设 4(S) 是 使 得 导 ,(S) 取 它 的 极 小 值 的 最 小 的 2。 当 且 仅 当 对 所 有 
S,L(S) 三 +4(S+1) 时 存在 所 希望 的 序列 M,。 假 设 n=t(S)>tl(S+1)=n ,使 得 
2 的 克 合 但 让 扫 
Do 
所 以 2 区 9 212i Ty3 因此 有 某 个 全 TW; 使 得 工 兴 < Trie 类 似 地 ;我 
们 有 41=,(S+1)- 3,(S)> D3.(S+1) -DH,.(S)=/ ;因此 /Ti 宇 S+1 
> 由 于 / 宇 m >>m ,有 某 个 有 >> ,使 得 Ti T,,。 但 这 同 (b) 部 分 矛 
盾 。 
15. 这 个 定理 已 为 D.A.Zave 所 证 明 , 他 的 论文 已 在 正文 中 引用 。 


16.D.A.Zave 已 经 证 明 , 输 入 (和 输出 ) 记 录 的 个 数 是 Slogr_1S+ 


[OB LOT(S )s 

17. 设 T=3;Ai(xr)=6r +35r + S56ri + ,Bn(r)= rx + 15r’ + 
35x8+ ,T(x)=7T7xs+50x +9lzs+64z?+19z0+2zx1。 对 于 S=144 的 最 
优 分 布 要 求 T2 上 的 SS 个 路 段 ,而 这 使 得 S = 145 的 分 布 不 能 是 最 优 的 。D. A. Zave 
已 经 研究 了 这 种 类 型 的 接近 最 优 的 过 程 。 

18. 设 S=9, 工 =3, 而 且 考 虑 下 列 两 个 型 式 


1 


> Slogr-1 


最 优 多 阶段 : 或 者 : 

Tl  T2  T3 费用 Tl  T2 7T3 费用 

021° OB oe 01196 0113 = 
ee I 0 
R23 5 9% 这 7 
32 31 和 31 3 -= 3 
下 一 6! 6 < 31 6! 6 
> i 

32 31 


(还 有 另 一 个 方法 来 改进 “最 优 ” 的 多 阶段 ,这 就 是 重新 考虑 在 每 个 合并 阶段 的 输出 
磁带 上 ,应 在 哪里 出 现 虚 拟 路 段 。 例 如 ,合并 0*1” 和 01 的 结果 可 以 认为 是 
2 0 210 2 ,而 不 是 02*。 于 是 ,仍然 遗留 着 许多 未 解决 的 最 优 性 问题 。) 


19. 级 | 工 2 T3 T4 总 共 ”最 后 输出 在 
0 1 0 0 0 1 T1 
| 0 1 1 1 3 T6 
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2 1 1 1 0 3 TS 
3 1 2 1 1 3 T4 
4 2 2 2 1 7 工 3 
$ 2 4 3 2 11 T2 
6 4 5 4 2 15 Tl1 
7 5 8 6 4 23 T6 
n a, b, C， d, t, T(k) 
n+l1 ob, Cnt a, CQ 十 a, CQ t, + 2a, T(k—1) 


20.a(z)=1/(1 -zx — zz1),t(z)= (3z+3z +2z + zi)/(1—-z — zx — 
14) ,DoT, (rr)z"=r(3z+3z +2z + zt)/(1 -r(x +z + xz)), D,=A,_1+ 
1,C,=A,_1A,.2+1,B,= A,_1An-2An-3+1,A,= A,_ 4A 3A4A， 4+1。 
21.333343333332322 3333433333323 33334333333 3333433 333323 工 3 
22.t, 一 -1 一 ty-2 二 一 1+3[Lnmod 3=1]。( 这 个 非 波 那 契 式 的 天 系 是 从 下 列 
事实 得 出 的 , 即 1 一 xz? 一 2z3 一 z= (1 一 $z)(1-$z)(1 -wz)(1-wz), 其 中 以? = 
1 ) 。 
23 .在 第 ”个 合并 阶段 的 头 一 半期 间 ,路 段 长 度 不 是 (25) ,而 是 s, ;在 第 二 半 为 
t» ,其 中 
Sn = tn2t tr3t Sn3t S24 tn = tn-2t Sn-2 + $n-3 + Sn-4 
这 里 ,我 们 认为 对 所 有 nn 三 0,s; = 性 =1。[ 一 般 地 ,如 果 w+ 是 zi+…+w-p 的 
头 2r 项 的 和 , 则 我 们 有 sw 三友 三 页- 十 二 十 2 区 -1 二 有 
如 果 v, 41 是 头 2r 一 1 项 之 和 , 则 我 们 有 5; 二 -2 二 -p11 Sn-r-1tt "十 
Sn- pstn=ti2t titsts rt ts -plo 
代替 (27) 和 (28) 的 是 ,A; =(U VD VD 3V -3U -4aVn-4)+1, 
,DD,=(U, 1Vi1) +t1,E= (U,V -2U,-3) tl; Vti= TV 1U,-2) 
+1,U,=(V;,-2U,-3V,-3U,-4Va-4)+1o 


25. 
1 1 一 让 
1 14 R 1°24 
18 一 24 R 


”001 


R 8116: 8! 8° 

16° R 8! 一 

161 161 8° R 

R 16! 一 24" 
16! 161 R 24°32° 
16° 16° 321 (R) 


26. 当 2” 个 路 段 被 排序 时 ,在 合并 时 处 理 了 ”2” 个 初始 的 路 段 ;每 一 半 的 阶段 
〈 除 少数 例外 ) 合 并 2” “个 和 重 绕 27 个 。 当 2" + 2 ! 个 路 段 被 排序 时 ,在 合并 时 
处 理 了 227"+(2 1) 2” 个 初始 的 路 段 ;每 一 半 阶 段 ( 除 少数 例外 ) 合 并 27 -2 个 
或 2” 个 并 且 重 绕 27 1+2” 个。 

27. 当 且 仅 当 诸 分 布 数 的 最 大 公 因 子 是 1 时 它 有 效 。 例 如 , 设 有 六 条 磁带 ;如 果 
我 们 分 布 (a ,b,c,d,e) 于 Tl 到 T5 上 ,其 中 4 宇 b 宇 c 宇 4d 宇 e >0, 则 头 一 阶段 产生 
一 个 分 布 (ae -e,p-ec-e,d-evec), 而 且 gcd(a—-e,b—-e,c—-e,d—-e,e)= 
gcd(a ,b,c,d,e), 因 为 一 个 数 集 的 任何 公 因 子 也 整除 其 它 的 公 因子 。 这 个 过 程 减 
少 每 个 阶段 的 路 段 数 ,直到 gcd(a ,6b ,c,d,e) 个 路 段 都 在 同一 条 磁带 上 为 止 。 

[如 同 习 题 18 中 所 示 ,在 某 些 虚拟 路 段 的 配置 下 这 些 非 多 阶段 的 分 布 有 时 要 比 
多 阶段 优越 。 这 个 现象 是 由 B.Sackman 大 约 于 1963 年 首先 发 现 的 。 

28. 由 (1,0,0,0,0) 开 始 ,并 且 进 行 下 列 操作 恰好 n 次 ,我 们 即 得 任何 这 样 的 
(a,b0,c,d,e): 在 la,6b,c,d,e| 中 选择 zx, 并 把 xz 加 到 (a ,b,c,d,e) 的 其 它 四 个 元 
素 中 的 每 一 个 上 。 

为 证 明 a + 5+c+4d+e 世 4, ,我 们 将 证 明 , 如 果 在 级 n 上 ,a 宇 6 宇 c 宇 4d 宇 e, 则 
总 有 aa, ,bb,,cSoe, ,dd,,e<e,,o 这 个 证 明 通 过 归纳 法 即 可 得 出 ,因为 级 
n+1 的 请 分 布 是 (5+a,cta,dt+a,e+a,a),(at+b,ct+b,d+b6,e+b,6b), 
(atc,bt+ce,dt+ec,etc,c),(atd,bt+d,ctd,etd,d),(a+e,b+e,ct+e,d 
+e,e)。 


30. 下 表 是 由 J].A.Mortenson 计算 出 来 的 : 
级 T=5 T=6 T=7 T=8 T=9 T=10 


1 2 2 2 2 2 2 Mi 
2 4 3 6 7 8 9 M, 
3 4 3 6 7 8 9 AI3 
4 8 8 10 12 14 16 Mi 
3 10 14 18 17 20 23 Ai 
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6 18 20 20 27 32 31 Ma 
7 20 32 46 47 56 42 M] 
8 44 533 74 82 92 92 Ms 
9 68 83 122 111 138 139 Mo 
10 112 134 200 140 177 196 AM 0 
11 178 197 317 324 208 241 Mi 
12 290 330 401 488 293 288 AM 
13 466 300 933 640 838 860 M 13 
14 7506 917 1371 769 1064 1177 M14 
1S 1220 1481 1762 2078 1238 1320 Mis 
16 1970 2313 4060 2907 3839 1821 M ic 


31. [Random Structures & Algorithms 5 (1994) ,102 一 104] Ky(n)= Fe = 
N54_1。 如 果 这 棵 树 有 r+1 个 叶 而 且 第 +1 个 叶 有 这 样 a 一 1 个 祖先 ,它们 是 
不 同 于 涉 个 叶 的 祖先 的 , 则 我 们 有 nn 一 4 一 1= ail+… + a,。( 七 个 例子 树 分 别 对 
应 于 1+1+1+1,1+1+2,1+2+1,1+3,2+1+1,2+2 和 3+1o。) 


5.4.3 小 市 


1. 当 有 6,7 或 8 条 磁带 时 ,相对 于 每 个 记录 被 处 理 的 平均 次 数 来 说 ,磁带 分 开 
多 阶段 是 最 优 的 ( 表 5.4.2-6)。 

2. 当 初始 路 段 数 是 一 个 裴 波 那 契 数 时 ,这 两 个 方法 实际 上 是 等 同 的 ;但 是 在 其 
它 情况 下 多 阶段 分 布 虚 拟 路 段 的 方式 更 好 些 。 级 联 算法 把 1 放 在 Tl1 上 ,然后 放 1 
于 T2 上 , 放 1 于 Tl 上 , 放 2 于 T2 上 , 放 3 于 Tl 上 , 放 5 于 T2 上 ,等 等 ,而 且 当 zp 
=2 时 ,在 步骤 C8 中 决 不 会 有 DIDI-1l=MIp=-1。 事 实 上 ,所 有 虚拟 路 段 都 在 
一 条 磁带 上 ,而 这 是 比 算 法 5.4.2D 中 的 方法 更 低 效 的 。 

3. (在 步骤 (3,3) 期 间 在 把 12 个 路 段 放 置 在 T3 上 之 后 ,分 布 停止 。) 


T1 了 工 2 T3 ‘14 工 3 16 
129 121 124 1 14 115 — 
1 _ 1 1 1227 115 2<41 
84 6293 9 63 11 _ 
一 9 23 17 25 26 

100° 一 一 一 一 一 


4. 归 纳 法 。( 参 见习 题 5.4.2-28)。 
“663 . 


习题 答案 


5. 当 有 a; 个 初始 路 段 时 ,第 & 趟 扫描 输出 长 度 为 wx 的 a i 个 路 段 ,然后 输出 
长 度 为 64 的 65, -4 个 路 段 ,等 等 。 


6l1 1 1 1 1 
1 1 1 1 0 
1 1 1 0 0 
1 1 0 0 0 
1 0 0 0 0 


7. 我 们 节省 eze, +ese 3+…+eneo 个 初始 路 段 长 度 (参见 习题 5), 它 也 可 
以 写成 为 ctav -3+azan-4t+ 十 4-240; 它 是 [xz”“](A(z)*-A(z))。 

8.A(z) 的 分 母 有 不 同 的 根 和 大 于 分 子 的 次 数 , 因 此 将 A(z)= 2 gq3(p)/(1 一 
pz)"p(1 一 qa(p)) 对 于 qs(p) = 二。 的 所 有 根 求 和 。 在 计算 os(o) 和 cg4(o) 中 ，,o 的 特殊 
形式 是 有 帮助 的 。 

9. 鉴 于 g,,(2sin 9 ) 的 值 ,根据 (8) 和 (12), 对 所 有 大 的 nn 这些 公 式 成 立 。 为 证 明 对 
于 所 有 它们 都 成 立 ,我 们 需要 知道 对 于 0 二. 之 7 ,gq,_1(z) 是 当 g,_1(z)g,(z) 除 以 
q,(z) 一 z 时 的 商 。 这 可 以 通过 以 下 儿 种 方法 来 证 明 : 或 者 使 用 (10) 并 注意 相 消 减 
少 了 g,-_1(z)gq,(z) 一 gq,(z)gqm-1(z) 的 次 数 ,或 者 注意 当 zx 一 时 ,A(z)*+B(z)” 
+… 十 (xz) 一 0( 参 见习 题 5) ,或 者 对 于 B(xz),C(z) 等 的 分 子 ,可 以 求 得 一 个 明显 
的 公式 。 

10.E(z)=ri(z)A(z);D(z)=r(z)A(z)—ri(z);C(z)=r3(z)A(z)-— 
ra(z);B(z)=ra(z)A(z)— ra(z);A(z)=rs(z)A(z)+1- ra(z)。 于 是 A(z) 
= (1 一 ra(z))/(1 一 r;(z))。|[ 注 意 ,r,,(2sin 0) = sin(2m0)/cos 0; 因 此 xr, (>z) 是 契 
比 雪夫 多 项 式 ( 一 1)”* U,,_1(z/2)]。 

11. 证 明 f(z)= gq jz) 一 rrm2i(z) 和 f(z)f,_-i1(z)=1 一 r,(z)。 然 后 
用 习题 10 的 结果 。( 分 母 的 这 一 显 式 首先 是 由 David.E. Ferguson 发 现 的 。) 

13. 参 见习 题 5.4.6-6。 


5.4.4 小 市 


1. 当 写 出 一 个 递增 的 路 段 时 ,在 输出 该 路 段 之 前 首先 写 一 个 含有 - co 的 “哨兵 ” 
记录 。( 而 如 果 这 个 输出 将 来 是 要 被 从 后 向 前 读 的 ,如 同 在 最 后 的 扫描 时 那样 , 则 
+ co 的 哨兵 也 应 写 在 这 个 路 段 的 末端 。) 对 于 递减 的 路 段 ,交换 - cc 和 + co 的 作用 。 

2. 级 n+1 上 的 最 小 数 ,等 于 级 mn 上 的 最 大 数 ;因此 不 管 在 任何 特定 的 行 中 我 
们 排列 诸 数 的 方式 如 何 , 诸 列 是 非 减 的 。 

3. 事 实 上 ,在 合并 过 程 中 ,在 T2 一 T6 上 的 头 一 个 路 段 将 总 是 递减 的 ,而 在 T1 
的 头 一 个 路 段 上 将 总 是 递增 的 。( 由 归纳 法 。) 

4. 在 第 二 和 第 三 阶段 要 求 若 干 个 “拷贝 "操作 ;近似 的 额外 费用 是 (log 2)/ 
(log 6) 次 扫描 ,其 中 6o 是 表 5.4.2-1 中 的 “增长 率 ”。 
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5. 如果 a 是 一 个 串 , 则 令 a* 表示 它 的 左 - 右 反 向 串 。 





2 
级 Tl 工 2 工 3 T4 工 $ 3| [3 
4| 13| 12 
0 0 3| 14| 13 
1 1 1 1 1 1 4| 13| 14| 12 
5 14| 13| 13 
2 12 12 12 12 2 4|15| 14|14 
3| 14| 1$113 
3 1232 1232 1232 232 32 ?| 13| 14al la 
4 12323432 12323432 2323432 323432 3432 1 、 ; 1 
3| 14| 13113 
2|13| 14112 
n A, Bb, CC D, E, 3112| 13|13 
2|13| 12114 
7 二 1 B,(Ai+1) CCAR+1) D,(AE+1) E,(Af+1) AR+1 1| 12| 13|13 
我 们 有 
FE,= Ax1+1 
D, 一 AR , ARI + 1 
C= Ax_3An 2Ax1+1 
B,= A7 44 3A» 2Ar 1+1 
以 及 A = An_sAn 4A7 3Ax 2Ar 1+1=n- Q, 
其 中 


QE 一 Q,_1(Q,_» 十 1)(Q，3 十 2)(Q，4 十 3)(Q，:; 十 4) ， nn 之 l 
Qo 二 0, 而 且 对 于 nn<0,Q,=e。 

这 些 串 A, , B, ,… 包 含 和 5.4.2 节 中 对 应 的 串 相同 的 项 ,但 是 按 男 一 种 次 序 。 
注意 , 相 邻 的 合并 数 总 盖 1。 一 个 初始 路 段 必 是 A 当 且 仅 当 它 的 合并 数 是 偶数 时 ， 
是 D 当 且 仅 当 它 的 合并 数 为 奇数 时 。 诸 如 算法 5.4.2D 那样 的 简单 分 布 方案 在 把 
虚拟 路 段 放置 于 高 合并 数位 置 中 时 ,不 是 十 分 有 效 的 ;因此 ,在 阶段 1 和 阶段 2 之 间 
计算 Q, 大 概 是 有 利 的 ,为 的 是 帮助 控制 虚拟 路 段 的 设置 。 

6.y'4)=(+1,+1, 一 1,+1) 

yY =(+1,0,—1,0) 

y=(+1,—1,+1,+1) 

y'1 =(-1,+1,+1,+1) 
y=(1, 0,， 0,， 0) 

7.( 参 见习 题 15 ) 顺 便 说 一 句 ,34 显然 是 这 样 一 个 最 小 的 斐 波 那 契 数 F, ,对 于 
它 , 多 阶段 排序 不 产生 三 条 磁带 上 的 已, 个 初始 路 段 的 最 优 向 后 读 合 并 。 这 株 树 的 
外 部 路 径 长 度 是 178, 它 胜 过 多 阶段 的 176。 
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CD 
2) 18) 

A C A B 
(3) (人 (19 7 
B/ \C A/ \8 B C A/ \C 
(4) (8) (D7 (DD 8 20) 0 62 


4/ \C A/\B B/ \C A/\C A/ \C B B/ \C A/\B 


) DDO ® DOOVODO @) © @ GDC 
六 癌 动 让 中 扬 口 的 中 误 口 亡 


8. 对 于 工 =4, 具 有 外 部 路 径 长 度 13 的 树 不 是 工 后 进 先 出 的 ,而 且 具 有 外 部 路 
径 长 度 14 的 每 株 树 包括 一 个 一 路 合并 。 

9 . 按 习题 2.3.4.5-6 的 结果 ,我 们 可 以 考虑 一 株 完 备 的 (本 -1) 叉 树 ;“ 最 后 "的 
内 部 节点 的 次 数 处 于 2 和 了 -1 之 间 。 当 有 ( 工 -1)9? 一 和 2 个 外 节点 时 ,它们 中 的 
Lm/( 工 一 2)j 个 在 级 g -1 上 ,其 余 的 则 在 级 g 上 。 

11 .对 初始 路 段 数 用 归纳 法 ,可 证 其 为 真 。 如 果 存 在 一 个 具有 S 个 路 段 的 正确 
分 布 ,而 且 有 两 个 相 邻 的 路 段 取 同 一 方向 , 则 有 一 个 小 于 S 个 路 段 的 分 布 ;但 当 S = 
1 时 不 存在 。 

12 .条 件 (a) 和 (b) 是 明显 的 。 如 果 对 于 某 条 磁带 名 A 和 某 个 i<j<k&,(4) 中 的 
两 个 配置 之 一 存在 , 则 由 前 根 次 序 的 定义 ,节点 7 必然 是 在 节点 i 之 下 和 市 点 左边 
的 一 株 子 树 中 。 因 此 “; -1” 的 情况 不 能 存在 ,而 且 A 必 是 “特殊 "名 ,因为 它 出 现在 
一 支 外 部 分 支 上 。 但 这 同 这 样 一 个 事实 矛盾 ,就 是 :特殊 名 应 当 在 节点 i 之 下 最 左 
边 的 分 文 上 。 

13 .现在 编号 为 4,7,11,13 的 节点 可 以 是 外 部 的 ,而 不 是 一 路 合并 的 。( 这 给 出 
比 多 阶段 树 高 1 的 外 部 路 径 长 度 。) 

15. 设 磁带 名 为 A,B 和 C。 我 们 将 构造 若干 种 类 的 树 ,在 植物 学 上 这 些 树 由 它 
们 的 根 和 叶 ( 外 部 节点 ) 结 构 来 进行 标识 : 


类 型 ry(A) 根 A 
类 型 ;(A,C) 根 A, 无 C 叶 
类 型 1:(A) 根 A, 无 A 叶 
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类 型 vx(A,C) 根 A, 无 C 叶 , 无 复合 B 叶 
类 型 vu(A,C) 根 A, 无 C 叶 , 无 复合 A 叶 
类 型 w(A,C) 根 A, 无 A 叶 , 无 复合 C 叶 


一 片 “复合 叶 ” 是 这 样 一 片 叶 , 它 的 兄弟 不 是 一 片 叶 ,我 们 可 以 首先 生成 一 株 s(B， 
C) 类 型 的 左 子 树 ,然后 生成 如 xr(C) 类 型 的 右 子 树 , 来 生成 一 个 3 后进 先 出 类 型 的 
(A) 树 。 类 似 地 ,类 型 ;(A,C) 从 类 型 ;(B,C) 和 1(C) 得 出 ;类 型 (A,C) 从 类 
型 au(B,C) 和 w(C,B) 得 出 ;类 型 v(A,C) 从 类 型 (B,C) 和 w(C,A) 得 出 。 我 
们 可 以 生成 一 个 3 后 进 先 出 类 型 的 1(A ) 树 ,其 左 子 树 是 u(B,A), 其 右 子 树 是 类 型 
s(C,A), 办 法 是 首先 让 左 子 树 生长 ,但 它 的 ( 非 复合 ) C 叶 和 它 的 右 子 树 除 外 ;而 这 
时 , 左 子 树 仅 有 A 叶 和 B 叶 , 所 以 我 们 可 以 生出 整个 树 的 右 子 树 , 然 后 长 出 左 左 于 
树 的 A 叶 , 最 后 生成 左右 子 树 。 类 似 地 ,一 株 w(A,C) 类 型 的 树 可 以 从 一 个 u(B， 
A) 和 一 个 v(C,A) 型 的 树 构 造 出 来 。[ 习 题 7 的 树 是 一 株 以 这 样 的 方式 构造 的 
"(A ) 树 。] 

今 y(n),…,w(n) 表 示 按 上 述 过程 构 造 出 来 的 相应 类 型 的 所 有 n 叶 树 的 极 小 
外 部 路 径 长 度 。 我 们 有 (1)=s(1)=u(1)=0,7(2)=1(2)=w(2)=2,t(1)= 
v(1)=w(1)=s(2)=u(2)= wv(2)= %; 而 且 对 于 nn 之 3 

r(n)=n+min(s(k)+r(n—k)), u(n)=n+min(v(k)+w(n—k)), 

s(n)=n+min,(s(k)+1t(n—k)), v(n)=n+min(u(k)+w(n—k)), 

t(n)=n+min,(u(k)+ s(n—k)), wn)=n+min(u(k)+v(n—k)) 
由 此 得 出 ,对 所 有 的 nn,r(n) 达 s(n) 守 wu(n),s(n) 信 wv(n), 以 及 r(n) 全 1(n) 亿 
w(n); 进 而 ,s(2n)=1(2n+1)=%。( 后 者 是 不 证 目 明 的 。) 

今 A(n) 是 由 规则 A(1)=0,A(2n)=2n+2A(n),A(2n+1)=2n+1+ 
A(n)+A(n+1) 定 义 的 函数 ; 则 对 所 有 nn 宇 2,A(2n)=2n+A(n-1)+A(l(n+t+1) 
- (0 或 1)。 设 C 是 一 个 常数 ,使 得 对 于 4<n8。 

i)n 为 偶数 蕴涵 wl(n) 三 A(n)+ Cn-1o 

ii)n 为 奇数 蕴涵 ul(n) 和 wl(n) 三 A(n)+Cn--1。o 


(这 实际 上 对 于 所 有 C 沁 半 都 有 效 。) 则 通过 适当 选择 & 为 | n/21+1, 归 纳 法 论证 表 


明 ,对 于 所 有 nn 宇 4, 这 些 关 系 成 立 。 但 是 A(n) 是 当 卫 =3 时 (9) 中 的 下 限 , 且 r(x) 
过 min(u(n),v(n),w(n)), 因 此 我 们 已 经 证 明 A(n)<Ks(n)r(n)A(n)+ 


汪 n 一 1。 [常数 避 还 可 以 改进 。] 
17.[ 下 列 方法 首先 用 在 UNIVAC III 的 排序 程序 中 ,并 在 1962 年 ACM 排序 讨 


论 会 上 作 了 介绍 。 
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级 了 1 了 2 了 3 了 4 TS 
0 1 0 0 0 0 
1 5 4 3 2 ] 
2 35 50 41 29 15 
n a b, Ci Q e, 
n+1 Sa, +40 二 4a, + 46, + 3a,, + 306, + 2a, + 206, + a, + b, 十 
3c + 2d, +e, 3c + 2d, + e, 3c,t2d, te, 2c,+2d,+e, cC 十 好 十 e， 


为 了 在 初始 分 布 期 间 从 级 nn 到 达 级 ++ 1 ,分 别 插入 具有 (4,4,3,2,1) 个 路 段 的 ki 
个 “ 子 级 "加 到 带 (Ti,T,,…,T;) 上 ,再 加 上 具有 (4,3,3,2,1) 个 路 段 的 个“ 子 
级 ,具有 (3,3,2,2,1) 个 路 段 的 ;个 “ 子 级 ", 具 有 (2,2,2,1,1) 个 路 段 的 ,个 “ 子 
级 ,共有 (1,1,1,1,0) 个 路 段 的 5 个 " 子 级 "上 ,其 中 局 委 c 久生 OA 去 CA 去 
dn，ks 侍 eyo [如 果 (,… ,ks) 二 (a ie) 则 我 们 已 经 达到 级 n+ 1,] 必 要 时 加 
虚拟 路 段 以 充满 一 个 子 级 。 然 后 从 (Tl1,…,T5) 合 并 k++ + 二 个 路 段 
到 T6, 从 (Tl1,…,T4) 合 并 +… 二 个 到 T5,…, 从 TIl 合并 ,个 到 T2; 然 后 从 
(T2,…,T6) 合 并 个 到 人 Tl1, 从 (T3,…,T6) 合 并 ,个 到 T2,…, 从 T6 合并 ,个 
到 TS 。 

18. (M.S. Paterson 给 出 的 解 。) 假设 把 记录 j 写 到 磁带 号 为 ri 的 序列 上 ,至 多 
有 Cizl 个 记录 有 一 个 给 定 的 序列 ,其 中 C 依赖 于 内 部 存储 的 大 小 ( 见 5.4.8 节 )。 
因此 | | tt | rN| = Q (NlogrN )。 

19. 


20. 一 个 强人 先进 先 出 树 有 一 组 T 先进 先 出 标号 ,其 中 不 存在 分 别 具 有 如 下 形 


. : 1 -| 人 J . 1 


的 三 个 分 文 ,这 里 A 是 某 个 磁带 名 , 且 i<j<k<1<s。 非 形式 地 说 , 当 我 们 “长 出 " 


起 
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一 个 A 时 ,在 建立 任何 新 的 A 之 前 ,必须 长 出 所 有 其 它 的 A。 
21. 它 是 非常 弱 的 先进 先 出 : 


A 
CD 
B C 
2) (0) 
A C A B 
全 7 (12 13 

B C A/ NB B/ \C A/ \C 

4 8) (9 WD & (0 [LD] 4 


B/ \C 4/\B B/\C A/ \C 4/ \B A/ NB A/ \C A/ \C 
C9) WD OCYLICOL GY LOUD _ | 国有 加 
A/ \C 4/\B8 4/ \C 4/ \B8 A4/ \B 
es WILTED GOL 
B/ \C A/ \B 


22. 对 于 通过 例如 ,对 于 某 些 固 定 的 磁带 名 A ,B,C,D 逐次 地 的 所 有 出 现 , 形 
成 的 任何 树 表示 会 出 现 这 种 情况 。 因 为 所 有 这 些 出 现 都 为 相同 形式 所 代替 ,后进 先 
出 或 先进 先 出 次 序 在 这 个 树 结构 中 并 不 造成 差别 。 


A 


人 B/C| \D 


缘 助 于 向 量 模 型 叙述 这 个 条 件 ; 每 当 (y%*D 关 y( 或 &=m) 且 y( 人 Y= 一 1 时， 
我 们 有 y*) +4. + yd!) + y=0。 

23.(a) 假 定 vi 二 v; 生 … 声 vr;“ 级 联 ” 阶 段 (1… ,1 ,一 1)”r(1,…,1, 一 1,0)”r-i 
(1 ,一 1,0,…,0) 把 C(v) 放 人 wv 中 。(b) 直 接地 ,因为 对 于 所 有 有 , C (vw), 过 
C(zmw) os(c) 如 果 在 g 个 阶段 得 到 wv, 则 对 于 某 个 单位 向 量 u, 以 及 某 些 其 它 向 量 
ul) ,ee ， uw‘9-1) 我 们 有 1 一 > 1 (1) 一 > ,> mq) 二 wv。 因此 nl) <C(u ) ， 1 《2) < 
C(C(w)),…,v 达 CW 中 (ww)。 因 此 vj +… + wz 小 于 或 等 于 CI?(w) 的 元 素 之 和 ;而 
后 者 在 级 联合 并 中 得 到 。[ 这 个 定理 推广 了 习题 5.4.3-4 的 结果 。 不 幸 , 像 这 里 所 
定义 的 “阶段 "的 概念 ,似乎 没有 任何 实际 的 意义 。] 

24. 设 y”…yW*D 是 把 w 约 化 为 v 的 一 个 阶段 。 如 果 对 于 某 个 <i 一 1,y 
= 一 1,y =0,…,y41DD=0, 以 及 y= 一 1, 则 我 们 可 以 插入 y 久 于 y 中 与 
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习题 答案 
y(' 之 间 。 重 复 这 个 操作 直到 在 每 列 中 所 有 的 (- 1) 都 是 相 邻 的 为 止 。 然 后 如 果 
y=0 和 yi 0 关 0, 则 有 可 能 置 "<-1; 最 后 ,每 个 列 由 一 些 +1, 后 边 接 上 一 些 - 
1 再 楼 上 _ 些 0 组 成 ,因此 我 们 已 经 构造 了 一 个 阶段 ,对 于 某 个 w 过 ww , 它 把 w 归 
结 为 wu。 这 个 阶段 对 各 列 进行 排列 , 它 具 有 形式 (1,…,1, 一 1)*r…(1, 一 1,0,…， 
0)%2( 一 1,0,…,0)“1。 工 一 1 个 关系 的 序列 


(X13 XT) (x1 + Xr, ,XT + XT,0) < 
(x1+ XT1 +2zT TT 2 + XT 1 + 2ZT TXT,0) < 
(XI1+ XT 2+ XT 1+ TT TT 3 + TT 2 + TTI + TTTT 1 + 
2ZTyZT 0) < …: < 


(x! 十 区 2 十 之 3 十 十 之 人 下， 灾 3 十 。'， 十 TXT,，""", TXT-1 十 ZTy Zr 0) 


表明 请 a 的 最 好 选择 是 o7 = zwr,ar 1=o7 las=u ,al=0。 而 且 如 果 把 诸 列 
排列 成 oi 委 … 委 oo , 则 结果 是 最 好 的 。 

25.(a) 假 设 o7 jy1 宇 … 宇 vr 宇 v1 宇 … 宇 vr_,, 并 使 用 (1,…,1, 一 1,0,…， 
0) ?rerione(1 ,1,0,…,0, 一 1)*r。(b) 对 于 1 过 /过 TT- 衣 ,D,(v) 的 /个 最 大 元 素 
之 和 是 (7 一 1)s4 + sp41o。(c) 如 果 在 一 个 使 用 个 输出 磁带 的 一 个 阶段 中 礼包 , 则 
我 们 显然 可 以 假定 该 阶段 有 (1,…,1, 一 1,0,…,0)%i…(1,…,1,0,…,0, 一 1)“ 的 形 
式 , 且 其 它 全 ~- 条 磁带 的 每 一 条 用 作 每 个 操作 的 输入 。 选 择 a = vr_ 41，… ,a 
= vr 是 最 好 的 。(d) 见 习题 22(c)。 我 们 总 有 Ai =1; 而 且 &= 人 -2 总 是 胜 过 到 = 
T 一 1, 因 为 我 们 假定 ,wv 的 至 少 一 个 分 量 为 0。 因 此 对 于 T=3, 有 ki…k, =1? 和 初 
始 分 布 (Ff ;1, 下 ,0)。 对 于 荆 =4, 找 到 的 不 占 优势 的 策略 及 其 对 应 的 分 布 是 

gq=2 12 (3,2,0,0) 
121 (5,3,3,0) ; 122 (5,5,0,0) 
1211 (8,8,5,0) ; 1222 (10,10,0,0) ; 1212(11,8,0,0) 
12121 (19,11,11,0) ; 12222 (20,20,0,0) ; 12112(21,16,0,0) 
122222 (40,40,0,0) ; 121212 (41,30,0,0) 
12% 1(5.2% 3,5.:2% 3,0,0) 
故 对 于 全 =4 和 g 宇 6, 极 小 阶段 合并 同 平衡 合并 相似 ,只 是 在 末尾 处 稍 有 曲折 (从 
(3,2,0,0) 进 行 到 (1,0,1,1), 而 不 是 (0,0,2,1))。 

当 修 =5 时 ,不 占 优势 的 策略 对 于 g = 2n 宇 2 是 1(32)” 12,1(32)” 13; 对 于 1 
二 2n +1 宇 3 是 1(32)”132,1(32)” 122,1(32)” 123。( 所 列 的 头 一 个 策略 在 它 
分 布 中 有 最 多 的 路 段 。) 在 六 条 磁带 上 ,它们 是 13 或 14,142 或 132 或 133 ,1333 3 下 
1423 ,然后 对 于 g 宇 5 为 13? 1!。 


S.4.S 小 节 


1 .下列 算 法 为 一 个 表 ALL 一 11…A[1]AL0] 所 控制 ,这 个 表 实 质 上 表示 在 基数 已 
“670 : 


QO QR CO 
| 
Ow 


| 


5.4.5 小 市 


记 法 下 的 一 个 数 。 当 对 这 个 数 重复 加 1 时 ,“ 进 位 ”告诉 我 们 何 时 合并 。 诸 磁带 被 编 
号 成 从 0 一 PP。 
O1.1 初 始 化 】 置 (ALL 一 1j,…,A[0]) 一 (0,…,0) 和 gq<-0。( 在 本 算法 期 间 ,g 
将 等 于 (A[LL 一 1]+…+A[0]) mod T)。 
O02. [分布] 以 递增 次 序 写 出 磁带 g 上 的 一 个 初始 路 段 。 置 /<-0。 
O03.[ 加 1] 如 果 7= 工 , 则 停止 ;以 递增 顺序 输出 在 磁带 (一 L) mod TT 上 , 当 且 
仪 当 工 是 偶数 。 否 则 置 AL7]<ALlj+1,g<(g+1) mod TT。 
O04. [进位 ?] 如 果 A[7]<P, 则 返回 O02。 否 则 合并 到 磁带 (g 一 /1)mod T 上 ， 
置 A[7j<0 和 gqg<-(g+1)mod TT,1 增 1, 并 且 返 回 O03。 | 
2. 记 住 在 每 条 磁带 上 有 多 少 个 路 段 。 当 输入 穷尽 时 ,必要 时 增加 虚拟 路 段 , 并 
继续 合并 , 直到 达到 在 每 条 磁带 上 至 多 有 一 个 路 段 和 至 少 一 条 磁带 是 空 的 为 止 。 然 
后 在 男 一 次 合并 中 完成 排序 ,必要 时 首先 重 绕 某 些 磁带 。( 有 可 能 从 A 表 导 出 诸 路 
段 的 方向 。) 


3. OP 10 11 12 OP 10 11 12 


分 布 一 4 AiA1: 分 布 DA! Al As 
合并 D, 一 Ai 合并 D, — A.D; 
分 布 ”D2Ai 一 Al 合 一 人 A4 As 
合并 站 D, 一 分 布 一 As 444 
分 布 D DA Ai 拷贝 一 AD A 
合并 D2D， D， 一 拷贝 一 A AusAl 
合并 D， 一 A14 合 D; 一 As 


这 时 T2 将 被 重 绕 , 而 最 后 的 合并 将 完成 此 排序 。 
为 了 避免 无 用 的 拷贝 操作 ,其 中 路 段 只 是 向 前 向 后 移动 ,我 们 可 以 在 B3 的 结尾 
处 说 :“ 如 果 输 入 穷尽 , 则 转 到 B7” ,并 且 加 上 下 列 的 新 步骤 : 
B7.[ 做 收尾 工作 ] 置 ;一 一 1, 并 重复 下 列 操 作 直 到 /=0: 置 s <A[1 一 1,g], 并 
置 和 ”成 为 使 得 ALL 一 1,g ]= 一 1 和 A[71-1,r ]= 一 2 的 下 标 , 然 后 转 
到 B2。( 对 于 j 关 gq 和 j 关 rx ,我 们 将 有 gg = 和 二 AL 7 一 1,jj] 夺 s+16) 如 
果 一 s 为 奇数 , 升 高 级 /1 ,否则 降低 之 ( 见 下 )。 然 后 合并 到 磁带 x 上 ,并 且 
器 后 读 ; 置 /一 / 一 1,A[71,gj 一 一 1,A[71,rj 一 s+1,r<-r 并 重复 。 这 里 “ 升 
高 " 指 的 是 重复 下 列 操作 直到 (g++( 一 1);) mod T= 为 止 。 置 p< 一 (g+ 
(一 1);)mod 开 并 且 从 磁带 拷贝 一 个 路 段 到 磁 市 g ,然后 置 A[L 1 ,gj 一 s+ 
。 07T : 
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1,A[71,p] 一 -1,9< 一 p。 而 “降低 ”" 指 的 是 重复 下 列 操作 下 到 (一 g 一 (一 1)’) 
mod 本 = 为止: 置 p<(g 一 (一 1)’)mod 本 并 从 人 磁 市 p 复制 一 个 路 段 到 磁 
带 g ,然后 置 A[ 1,gj 一 s,AL[L,pj]j< 一 -1,q<-p。 拷 贝 操作 在 磁 布 p 上 同 后 
读 ,因此 它 把 被 拷贝 的 路 段 的 方向 颠倒 过 来 。 当 从 p 拷贝 到 g 时 , 如果 
D[ p>>0, 我 们 简单 地 减少 DLp 和 增加 Dlg ] 而 不 作 找 贝 。 

[基本 的 思想 是 ,一 旦 穷尽 了 输入 , 则 在 每 个 磁带 上 我 们 要 减少 至 多 一 个 路 段 ， 
每 个 非 负 项 A[ 1,j] 的 奇偶 性 告诉 我 们 一 个 路 段 是 递增 的 还 是 递 降 的 。 这 个 变动 造 
成 差别 的 最 小 S 是 P+1。 当 PP 很 大 时 ,这 个 变动 几乎 不 构成 太 多 的 差别 ,但 它 确 
定 使 计算 机 在 某 些 情况 下 看 上 去 很 思春 。 算 法 也 应 当 加 以 改变 以 更 有 效 地 处 理 
S=1 的 情况 。j 

4. 事 实 上 ,我 们 可 以 省 略 步骤 Bl 中 的 设置 ARL0,0] ,步骤 B3 和 BSs 中 的 AL ,acj。 
[但 是 AL ,rj 必须 在 步骤 B3 中 设置 ,jj 在 以 前 的 答案 中 新 的 步 最 B7 确实 需要 
A[7 ,9g] 的 值 。( 除 非 如 同 在 那里 指出 的 那样 , 它 明确 地 使 用 g = x 这 个 事实 。) 

5. 对 于 某 个 &>0,P*-(P-1)P*%* “< SP*。 


5.4.6 小 节 


1.|23000480/(n +480) |n。 

2. 在 所 示 时 刻 , 该 缓冲 区 中 的 所 有 记录 都 已 经 移 至 输出 。 步 又 F2 坚持 ,在 合并 
时 在 测试 “输入 缓冲 区 是 否 空 ” 之 前 测试 “输出 缓冲 区 是 否 满 ?” ,否则 我 们 将 会 遇 到 
麻烦 (除非 作 了 习题 4 的 改变 )。 

3. 否 ;例如 ,如 果 对 于 1 三 i 达 P, 文 件 i 包含 键 码 i,i+ PP,i+2P,…, 则 我 们 可 
以 达到 P 个 缓冲 区 1/P 满 和 P 一 1 个 缓冲 区 全 满 的 状态 。 这 个 例子 表明 ,为 了 连续 
进行 输出 ,即使 允许 同时 读 ,2P 个 输入 缓冲 区 是 必要 的 ,除非 我 们 重新 分 配 内 存 作 
部 分 缓冲 区 来 用 某 种 方式 使 用 " 散 列 读 "。[ 是 的 ,实际 上 ,如 果 诸 块 包含 少 于 已 -1 
个 记录 , 则 并 不 真正 地 需要 2P 个 缓冲 区 ;但 这 是 不 可 能 的 。] 

4. 早 一 点 设置 S。( 在 步骤 Fl 和 F4 而 不 是 F3。) 

5. 例 如 ,如 果 所 有 文件 的 所 有 键 码 都 相等 , 则 在 预报 时 我 们 不 能 简单 地 作 任 意 
的 决断 ;预报 必须 同 合 并 处 理 所 作 的 决断 相 容 。 一 种 安全 的 方式 ,是 在 步 又 下 1 和 
F4 中 求 最 小 的 m , 即 每 当 ;< 7 时 认为 取 自 文件 CL i 的 一 个 记录 小 于 在 文件 CL 
上 有 相同 键 码 的 所 有 记录 。( 实 质 上 ,文件 号 被 附加 在 键 码 上 。) 

6. 在 步骤 Cl 中 ,也 置 TaAPE[T+1]<T+1。 在 步骤 C8 中 ,应 合并 到 TAPE[ p+ 
2] 上 而 不 是 TAPE[ p +1] 上 。 在 步骤 C9 中 , 置 (TREE[1],…,TRPE[L 下 十 1])<(TRAPE 
[T+1],.…,TAPE|1 |)。 

7. 在 图 表 A 中 使 用 的 方法 是 (A1D1)*AoDo (A1D1)AoDo (A1D1) AD 
( A1,D, )*AoD, (AD 3AoDoaAoDoAo, DiAoDo ( A1D1 ”AoDoaAiD'Ao, 
D; A1DiaA1D1Ao, 其 中 a= (AoDo)*A1D1AoDo(A1D1)*(AoDo) AiDi(AoDo) 
AiDi1AoDo。 尖 一 个 合并 阶段 号 DoA3D3A1D1A4D4AoDoA1D1A1D1A4DaAoDo 
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A;Di4vD(A;D))4 于 磁带 5 上 ;其 次 写 A,D,A,D,AIDIA,D,AVDA DAID， 
Ay7 于 位 市 1 上 ;其 次 写 站 3A4D4ADAI0 于 磁 市 4 上 。 最 后 的 阶段 是 


A474A4 一 DiA3DP3sAi DaoA4D4A4 DoA; 
Aa 站 23Au DioA; 站 3A4 一 
一 D»; Dio D3; D;, 
A77 一 一 一 一 


8. 否 。 因 为 至 多 市 约 S 次 停止 /启动 ,而且 因为 无 论 如 何 输入 磁带 (不 是 输出 磁 
融 ) 的 速度 总 是 要 支配 初始 分 布 时 间 的 。 图 表 A 中 使 用 的 分 布 方案 的 其 它 优点 远 远 
抵消 了 这 微小 的 缺点 。 

9.P=5,B=8300,B’=734,S=[(3+1/P)N/(6P’)1+1=74,wO1.094,¢~ 
0.795,B 守 一 1.136,a = BB =0; 等 式 (9) 守 855 s, 我 们 对 它们 附加 初始 重 绕 的 时 间 后 
总 共 为 958s。 合 并 时 间 中 节省 大 约 1 min, 不 足以 补偿 由 于 初始 重 绕 和 换 磁 带 所 损 
失 的 时 间 ( 除 非 也 许 我 们 处 于 一 个 多 道 程序 设计 环境 中 )。 

10. 在 标准 多 阶段 合并 期 间 , 重 绕 涉 及 该 文件 的 大 约 54% ( 表 5.4.2-1 中 的 “ 扫 
描 / 阶 段 " 列 ) ,而且 由 习题 5.4.3-5 和 等 式 5.4.3-(13), 在 标准 级 联合 并 期 间 最 长 的 


重 绕 近似 地 包 插 文件 的 cue _ w/a, 守 (4/(2T-1))cos (x/(4T-— 2))< 广 。 


11. 仪 仅 初 始 和 最 后 的 重 绕 利用 到 “高 速 ”的 特征 ,因为 当 这 个 磁带 卷 包含 整个 
举例 文件 时 它 仅 仅 比 10/23 满 一 点 。 利 用 例 8 中 的 x =| .946 In S 一 1.2041,x = 
1/8 ,我 们 得 到 对 于 例 1 一 9 的 下 列 估计 的 总 数 ,分 别 为 : 


1113, 1296, 1241, 1008, 1014, 967, 891, 969, 856 


12.(a) 使 用 4P+4 个 缓冲 区 的 一 个 显然 的 解决 方法 ,就 是 简单 地 从 成 对 的 磁 
市 同时 读 和 写 。 但 是 注意 ,三 个 输出 缓冲 区 是 足够 的 :在 一 个 给 定 的 时 刻 ,我 们 从 一 
个 缓冲 区 执行 第 二 半 写 ,从 另 一 缓冲 区 执行 头 一 半 写 ,而 输出 到 第 三 个 缓冲 区 。 而 
上 且 这 对 于 输入 缓冲 区 状态 提出 了 相应 的 改进 。 使 用 一 项 稍微 弱化 的 “预报 ”技术 可 
以 证 明 ,3P 个 输入 缓冲 区 和 3 个 输出 缓冲 区 是 必要 的 和 充分 的 。 肖 智仁 提出 了 一 
个 更 简单 和 更 优越 的 方法 , 它 把 一 个 “向 前 看 的 键 码 ” 加 到 每 一 个 块 区 中 ,以 指明 后 
继 块 的 最 后 键 码 。 首 智仁 的 方法 要 求 2P+1 个 输入 缓冲 区 和 4 个 输出 缓冲 区 ,因而 
这 是 对 算法 下 的 一 个 直截了当 的 修改 。 

(b) 在 这 种 情况 下 ,a 的 很 高 的 值 意味 着 我 们 必须 对 数据 进行 五 到 六 次 扫描 , 它 
消除 了 双重 快速 合并 的 优点 。 这 个 思想 在 八条 或 九条 磁带 上 实现 时 效果 要 好 得 
多 。 

13 . 否 ,例如 考虑 正好 在 Ai64i64A16Ai6 之 前 的 状态 。 但 可 处 理 两 个 满 卷 。 
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14. 
0 — poz 0 z—1 1 一 Diz ~— poz 0 之 一 工 
gerl! 1 一 pz -poz z—1 et -ps2z 1-piz 一 zz zz-—1 
1 0 0 0 0 — 1 1 0 
0 0 0 1 0 0 0 1 
15. A 矩阵 有 形式 
Bioz Biiz “°° Bi1,z 1 一 之 
: Bio+ Bnu+t+*+Bi,= 1 
A= |B,oz B,iz … BbB,.z lx, : (11) 
0…0 1 0 0 Bo 十 Bi 十 “二 Bn = 1 
0…'0 0 0 0 
因此 
1 一 Bioz 一 Biizx “°° 一 Bi(,_1)% 一 Bi,z 
det(I—- A)= det 
和 Boz 和 Bi1x 机 ] 一 B,(n-_1)% i Bz 
0 0 一 


而 我 们 可 以 把 所 有 列 都 加 到 头 一 列 上 ,然后 提出 因子 (1- z)。 结 果 go(z) 有 
ho(z)/(1 一 z) 的 形式 , 且 a‘% = hna(1) ,因为 ha(1) 隆 0, 且 对 于 | |<1l,det(T 一 A) 天 0。 


S.4.7 小 市 


1 .在 基数 交替 地 为 P 和 荆 - 卫 的 数 系 中 从 最 低位 有 效 数字 到 最 高 位 有 效 数字 
进行 排序 。( 如 果 把 数字 对 偶 组 合 在 一 起 , 则 我 们 实际 上 有 P:'(T- 卫 ) 的 一 个 纯 基 
数 。 例 如 ,如 果 P=2 和 工 =7, 则 这 个 数 系 是 以 一 种 简单 的 方式 同 十 进 记号 相关 的 
“ 双 五 进 制 ”。) 

2. 如 果 是 0 和 下 ,一 1 之 间 的 一 个 键 码 , 则 设 FF, -1- 开 的 斐 波 那 身 表示 是 
a -2F, -1 十 …* 十 aiF ,其 中 Qi 为 0 或 1 ,而且 不 出 现 两 个 连续 的 1 。 在 阶段 7 之 后 ， 
在 oj -1…al 的 递减 次 序 下 ,磁带 () +1) mod 3 包含 具有 a;=0 的 那些 键 码 ,而 磁带 
(j 一 1) mod 3 包含 具有 a;=1 的 那些 键 码 。 

[想像 具有 两 个 袋子 “0”" 和 “1” 的 一 个 卡片 排序 机 ,并 且 考 虚 F, 张 已 经 在 n 一 2 
列 穿 上 键 码 a, _，…ai 的 卡片 的 排序 过 程 。 把 这 些 卡 片 排 成 递减 次 序 的 惯常 步骤 是 
从 最 低位 有 效 数字 开 始 ,这 可 以 简化 ,因为 我 们 知道 每 次 扫描 末尾 时 在 “1" 袋 中 的 每 
件 事 物 下 次 扫描 时 将 转 入 “0" 袋 中 |]。 

4. 如 果 在 级 2 上 有 一 个 外 节点 , 则 我 们 不 能 够 构造 这 样 一 株 好 的 树 。 否 则 ,在 
级 3 上 至 多 有 三 个 外 节点 ,在 级 4 上 六 个 ,因为 每 个 外 节点 应 当 都 出 现 于 相同 的 磁 
带 上 。 
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7. 是 ;首先 分 布 诸 记 录 于 越 来 越 小 的 子 文件 上 ,直到 得 到 一 些 单 卷 的 文件 为 止 ， 
这 些 单 卷 的 文件 可 以 独立 地 排序 。 这 对 偶 于 下 列 过 程 :首先 对 诸 单 卷 文件 进行 排 
序 ,而 后 把 它们 合并 成 越 来 越 大 的 多 卷 文件 。 

S.4.8 小 节 

1. 是 。 如 果 在 选择 树 中 我 们 交替 地 使 用 递增 和 递减 次 序 , 则 我 们 实际 上 有 一 个 


阶 PP 的 鸡 尾 混 合 排 序 。( 参 见习 题 9,) 
2. 设 Zw = YNv-XNV, 并 注意 到 (NMN+1)NZV =NON-1)Z +N+N, 即 可 解 


现在 消去 Yn 并 得 到 


“NGON -TD， 对 于 N > M 














XN _20 1 1 
N+1 3 (Hy Huy) +2( NI 73)- 

2 和 1 1 _\,3M+4 

3 | 3 [NNT MM) AM TD， N > M 


3. 是 ;利用 类 似 于 定理 $.3.3L 的 一 个 构造 并 用 它 来 分 划 文 件 , 即 可 在 O(N ) 步 
内 求 一 个 中 间 元 素 。 由 R.W. Floyd 和 A.J. Smith 给 出 的 另 一 个 有 趣 的 方法 ,是 在 
O(N ) 个 时 间 单 位 内 合并 两 个 N 项 的 路 段 如 下 :把 诸 项 连同 它们 之 间 的 空格 ,散布 
在 诺 磁 囊 上 ,然后 对 每 个 空格 逐个 地 用 一 个 指明 刚好 居于 该 空格 之 前 的 项 的 最 后 位 
置 的 数 , 填 入 其 中 。 

4. 有 可 能 把 对 于 层 11,… ,p+1| 的 一 个 调度 和 对 于 层 |q,… ,nn| 的 一 个 调度 结 
合 在 一 起 :当前 边 的 调度 首先 达到 层 p +1 时 ,向 上 到 g 层 并 进行 后 一 个 调度 (利用 

“675 ， 


习题 答案 


当前 的 电梯 内 容 就 好 像 它 们 是 在 定理 的 算法 中 “额外 的 "个 人 那样 )。 在 完成 了 该 
调度 之 后 , 回 到 层 p+1 并 且 恢 复 以 前 的 调度 。 
5. 考 虑 5==2,m 二 4 及 算法 的 下 列 行为 





楼 层 7: 一 47 77 
5667 4566 
楼 层 6: 一 23 一 一 一 一 p23 一 8- 66 一 一 一 一 一 一 
5667 2345 

楼 层 5: 一 14 一 一 一 一 14 一 一 一 入 45 一 一 p 一 一 一 

5667 1234 2345 
楼 层 4: 一 71 一 一 一 六 15 一 一 一 一 一 ~ 11 

5566 
楼 层 3: 一 63 一 一 一 六 23 

2556 

楼 层 2: 一 62 一 一 一 $00 


0055 
楼 层 1: 一 55 一 -一 和 00 
0000 


现在 2( 在 电梯 里 ) 小 于 3( 在 楼 层 3 上 )。 

[在 构造 了 这 样 一 个 例子 之 后 ,读者 应 该 能 看 出 怎样 来 揭示 在 定理 K 的 证 明 中 
所 需要 的 较 弱 的 性 质 。 

6. 设 i,; 是 使 5,<6bi; 和 6;>6; 的 极 小 者 。 引 进 一 个 新 的 人 ,他 要 从 i 层 到 j 层 
去 。 这 对 于 任何 都 不 会 增加 max(wui ,dx41,1) 或 max(6b1,0b1)。 继 续 进 行 这 过 程 
直到 对 于 所 有 j ,0 = 06; 为止。 现在 注意 铬 在 步骤 1 和 K3 中 以 5b 代 蔡 5, 则 正文 
中 的 算法 仍 有 效 。 

8. 设 这 个 数 是 已 , , 且 设 Q, 是 使 得 对 于 1 三 &<n,w=1 的 排列 数 , 则 已 , = 
QiP,_1+ Q;P;,_;+… 二 Q,Po,Po=1。 可 以 证 明 , 对 于 nn 之 2, Q;, 二 3”“( 见 以 下 )， 
因此 用 生成 函数 可 推出 

>,Pz"= (1 -3z)/(1 -4z +2z*)=1+xz+2z +6z 十 20z +68z +: 


2P, = (2 +V2)” 1! + (2 -V2)”! 
为 了 证 明 Q, =3"” ,考虑 三 进 序列 x1x，… Xx, ;使 得 zx1 =2,zx,==0 且 对 于 1<k 
<n, 有 0 三 xz, 碾 2。 下 列 规则 定义 了 在 这 样 的 序列 和 所 希望 的 排列 alaz…a 之 间 
的 一 一 对 应 : 
人 <A& 且 zi = 0) 或 ;= 1)， 如果 六 =0 
QA = 


R ， 如 果 zi 
min{;|(; >kHZz; = 2) 或 = n)， 如 果 zj 
(这 个 对 应 是 由 作者 同 E.A.Bender 一 起 得 到 的 。) 
9. 鸡 尾 混合 排序 的 扫描 次 数 是 2 max(u1,…,u,) 一 (0 或 1), 因 为 每 对 扫描 ( 左 - 
右 - 左 ) 都 使 得 每 个 非 0 的 2 减 1。 
10. 从 一 个 分 布 方法 (快速 排序 或 基数 交换 ) 开 始 ,直到 得 到 一 些 单 卷 文件 为 止 。 
而 且 要 耐心 点 。 
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5.4.9 小 市 
2 
1. 所 ~ [x mod 祁 】 轿 转 动 。 


2. 对 于 固定 的 有 ,gq,r 和 i 关 i ,k=a, 和 上 上 +1= a 的 概率 是 f(q,r,k)LIL!: 
(PL 一 2L)!/(PL)!, 其 中 
























































k—-1lllk-aliPL-k-1||IPL-k— -1-L+i+g 
fl(q,r,k)= = 
qg—-1)\r— 1 L—-gq 人 一 > 
kl IO 二 7 一 2 | | 
0 十 太一 2 dg 一 工 2L 一 qq 一 7 Lg 
而 且 
> lg-rlf(gq,r,k) = 
二 
PL-1l|illg+r-2.|2L-gqg—r PL—-1 
>) 上 一 了 | 一 A2r -1 
1<gq,r<L 2 一 工 dg 一 工 Lg 2L—1 
对 于 国定 的 ,gq 和 i ,k= ais 和 k+1= ut， 的 概率 是 
PL k—-1l1|IiPL-k-1l 
g(k,q)/ | |， 其 中 g(k,q) = 
L qg—1 L-gq—-1l 
以 及 


PL—1 PL—-1 
2, g(k,g) = 3 | / 


1<k<PL 1<q<L 了 一 工 
[SICOMP 1 (1972) ,161~166,] 
3. 在 2 过 x 二 min(9,n) 的 范围 内 取 (5) 的 极 小 值 。 
4.(a)(0.000725(VYP+1)?*+0.014)L。(b) 把 公式 (5) 中 的 “amn + Bn” 改 为 
“(0.000725(V m+1)*+0.014)n”。[ 计 算 机 的 实验 表明 ,通过 这 个 新 的 递 推 式 定 
义 的 最 优 树 ,和 对 于 a =0.00145,B8=0.01545 由 定理 K 所 定义 的 那些 最 优 树 非常 
类 似 ; 事 实 上 , 当 30 志 nn 二 100 时 ,对 于 两 个 递 推 式 都 是 最 优 的 树 是 存在 的 。 本 题 中 
提出 的 修改 ,如 同 正文 中 的 例子 那样 ,在 ”=64 或 100 时 ,节约 大 约 10% 的 合并 时 
间 。 这 种 风格 的 缓冲 区 分 配 已 于 1954 年 由 HH.Seward 所 考虑 ,他 发 现 四 路 合并 使 寻 
找 的 时 间 极 小 化 。 
5. 设 A, (n),B,(n) 表 示 其 所 有 的 2” 个 叶 分 别 在 ( 偶 , 奇 ) 级 上 的 mm 株 树 的 
最 优 集合 的 费用 。 则 A1(1)=0,Bi(1)=a+B; 当 M 宇 2 时 像 在 (4) 中 那样 
定义 A,,(n) 和 B,(n); A1(n)= minl<m<n (amn + Bn 十 B,(n)), Bi(n) 二 
min<m<n(amn + Bn + A,(n))o 后 边 的 等 式 是 正确 定义 的 , 虽 则 Ai(n) 和 Bi(n) 
是 互相 定义 的 ! 
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A1(23)= Bi(23)=268。[ 奇 怪 ,2 = 23 是 仅 有 的 小 于 等 于 50 的 具 下 列 性 质 的 值 ， 
对 于 它 ,在 琳 侦 性 没有 限制 的 情况 下 ,任何 具有 ?2 个 叶 的 相等 奇偶 性 的 树 都 不 是 最 
优 的 。 也 许 它 是 当 a =8 时 仅 有 的 这 样 的 值 。] 

7. 考 虑 在 任何 树 中 的 诸 量 ad1 + Be1，… ,ad， + Be; ,其 中 4d; 是 对 于 第 ) 片 叶 的 次 
数 之 和 ,而 e; 是 路 径 长 度 。 对 于 权 wl 二 … 三 w; 的 一 个 最 优 树 将 有 adi + pe 过 … 
之 ad, + Be,。 总 是 有 可 能 重新 对 下 标 排序 使 得 ad1 + Bel =… = ad, + pe,, 其 中 头 
片 叶 被 合并 在 一 起 。 

9. 设 d 极 小 化 (am + B)/ in 和。 使 用 凸 性 的 一 个 简单 归纳 法 证 明 A; (2 ) 袜 
(ad + B)n logan ,而 且 当 n= 4d’ 时 等 式 成 立 。 一 个 适当 的 上 限 从 完备 的 4 又 树 得 
到 ,因为 对 于 n= d+ (4 一 1)r,0 二 rr 二 4d’' 它们 有 D(W)=adE(F),E(9)= tn+dr。 

10. 见 STOC 6 (1974) ,216 一 229。 

11. 利 用 习题 1.2.4-38, 当 2.3? 1 之 n/m 三 37 时 ,f(n)=3gn+2(n— 3m); 
当 3 之 n/m 二 2:39 时 ,fj,(n)=3gn+4(n 一 3%m)。 于 是 fp(n)+2n 宇 f(n), 而 且 
当 且 仅 当 4:3? 之 nn 过 2.39 时 等 式 成 立 ; fn)+3n= f(n);fu(n)+4n 宇 f(n), 
而 且 当 有 上 且 仅 当 ”=4:3? 等 式 成 立 ; 对 所 有 的 区 宇 5,f(n)+mn>f(n)。 

12. 利 用 描述 一 ,1:1,1:1:1,1:1:1:1 或 2:2,2:3,2:2:2,…,[n/3j] :| (n+1)/3j: 
[Ca+2)13]…3; 对 于 4.3" 委 2 委 4.32 这 给 出 其 所 有 时 在 级 g +2 上 的 树 。( 当 n= 
4.3? 时 ,形成 两 株 这 样 的 树 。) 

14. 穷 举 并 考察 n 的 所 有 分 划 , 对 于 =1,2,3…, 可 找到 下 列 树 的 描述 : - ,1: 
1,1:1:1,1:1:1:1,11:1:1:1,1:1:1:1:1:1,1:1:1:1:3,1:1:3:3,3:3:3,1:3:3:3， 
3:4:4,3:3:3:3,3:3:3:4,3:3:4:4,3:4:4:4,4:4:4:4,…,5:6:6:6:12,6:6:6:6:12, 
6:6:6:6:13,…。( 这 些 次 数 似乎 总 是 三 6 ,但 这 样 一 个 结果 看 来 十 分 难以 证 明 。) 

15. 如果 a 个 人 开始 时 上 了 电梯 , 则 集中 率 在 头 一 次 停止 时 至 多 增加 a +5。 当 
它 下 一 次 停止 在 最 初 一 层 时 ,比率 至 多 增加 + 一 a。 因 此 在 & 次 停止 之 后 ,比率 
顶 多 增加 BT+(&R 一 1)7z2。 

16.11 次 停止 :123456 至 层 2,334466 至 层 3, 444666 至 层 4,256666 至 层 5， 
466666 至 层 6,123445 至 层 4,112335 至 层 5,222333 至 层 3,122225 至 层 2,111555 
至 层 5,111111 至 层 1。|[ 这 是 极 小 的 ,因为 由 对 称 性 , 当 电 梯 的 容量 任意 时 , 停 十 次 
的 一 个 解法 ,都 可 重新 安排 成 依次 停 在 层 2,3,4,5,6, pp, p3, p4,;, ps;,1 上 ,其 中 
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pzpa3paps 是 12,3,4,51 的 一 个 排列 ;这 样 的 调度 只 有 当 2 之 8 时 才 可 能 。 参 考 Mar- 
tin Gardner, Knotted Doughnuts (New York:Freeman,1986) ,第 10 章 。] 
17. 至 少 有 (6bn)!1/651” 个 配置 ;而 且 在 * 次 停止 之 后 由 给 定 的 一 个 停止 可 以 得 到 


s—1 
的 这 个 数 至 多 是 {(z -1 ”| | 由 习题 1.2 .6-67 它 比 (n((6+ mm) e156)5) 


小 。 因 此 由 习题 1.2.5-24 某 些 配置 要 求 
s(Inn+6b(l+ln(l+ m/6))) > ln(6n)! — nlb! > 
bpnlnon—-obon-n((6+1)lIn6-6+1) 


注意 : 当 zx 和 y 都 为 正 时 ,使 用 1/(z +y) 宇 六 min(1/x,1/y) 这 一 事实 ,我 们 可 
以 以 下 列 方便 的 形式 表述 这 个 下 限 


a( min( nb nlog(1 + n) )) 


"log(1 十 7j /0 ) 
A.Aggarwal 和 J.S. Vitter,CACM 31 (1988) ,1116 一 1127 已 经 得 到 相关 的 结 
果 ,他 们 还 建立 了 匹配 的 上 限 


0 (mn (6) 


关于 对 若干 个 磁盘 的 扩充 ,也 参见 M.H. Nodine 和 J.S.Vitter,ACM Symposium on 
Parallel Algor:thms and Architectures $ (1993) ,120 一 129。 

18. 停 止 的 预期 数 是 ,1 zp,, 其 中 p, 是 至 少 需 要 s 次 停止 的 概率 。 设 q,= 工 一 
p,41 是 至 多 需要 停止 * 次 的 概率 。 于 是 习题 17 表明 gq, 记 f(s-1+[s=0]), 其 中 
f(s)=6l0/(6n)1, 以 及 a=n((b+m)e/6)*, 如 果 f(t 一 1)<1lf(#), 则 ,1p， 
pit+p=t—- (got+ gq 1)t-(f(0)+ f(0)+ + f(t -2))>i- 
(al i+t+al +:…+a 1!) 宇 1 -1 宇 L -1。 

19 .考虑 向 后 进行 步骤 (g) ,把 诸 记 录 分 布 到 箱子 1 中 ,然后 箱子 2。 这 个 操作 恰 
巧 是 步骤 (iv) 在 键 文件 上 模拟 的 操作 。[LPrinceton Conference on Information Sci- 
ences and Systems 6 (1972 ) ,140 一 144 。| 

20. 内 部 排序 必须 小 心地 并 记分 页 的 要 求 来 选择 ;如 果实 际 的 内 存 很 小 , 则 诸如 
Shell 排序 .地 址 计算 . 堆 排 序 以 及 表 排 序 方法 都 将 是 灾难 性 的 ,因为 它们 要 求 大 量 
页 的 “工作 集合 ”"。 快 速 排序 .基数 交换 以 及 顺序 分 配合 并 或 基数 排序 是 适合 于 一 个 
分 页 环境 的 更 好 得 多 的 方法 。 

一 个 外 部 排序 的 设计 者 能 做 的 某 些 事情 ,实际 上 不 可 能 包括 在 一 个 自动 分 页 的 
方法 中 。 这 些 事情 是 :(a) 预 报 下 一 次 应 该 读 的 输入 文件 ,使 得 当 需 要 时 就 有 数据 可 
用 ;(b) 按 照 硬 件 和 数据 的 特征 选择 缓冲 区 大 小 和 合并 的 次 序 。 

另 一 方面 ,如 果 程 序 员 很 仔细 ,而且 知道 所 使 用 的 实际 机 器 的 性 质 , 则 一 部 虚拟 
机 器 相当 容易 编程 序 ,上 且 它 能 给 出 不 坏 的 结果 。Brawn,Gustavson 和 Mankin 完成 了 
关于 这 个 问题 最 初 的 实质 性 的 研究 [CACM 13〈1970) ,483 一 494] 。 

21.[(L 一 j)/DD]; 参 见 CMath ,等 式 (3.24)。 

679 ， 


习题 答案 


22 .在 阅读 了 包含 w 的 一 组 了 个 块 区 之 后 ,在 阅读 下 一 组 DD 个 块 区 之 前 ,我 们 
可 能 需要 知道 a,;p_1。 而 且 如 果 我 们 以 a; 来 存储 wp 1, 我 们 也 需要 在 某 类 文件 
标题 中 的 值 ao… ,ap _ ,来 使 这 个 过 程 开 始 。 

但 是 对 于 这 个 方案 ,在 我 们 已 经 计算 ap…asp-; 之 前 我 们 不 能 写 块 区 ao… 
,所 以 我 们 将 需 可 3D 一 1 个 输出 缓冲 区 而 不 是 2D 个 来 使 写 保持 连续 。 因 此 
把 诸 a 放 在 一 个 分 开 ( 短 ) 的 文件 里 更 好 。[ 对 主 随 机 分 片 同 样 的 分 析 也 适用 。] 

23. (a) 算法 5.4.6F 需要 4 个 输入 缓冲 区 ,每 个 超 块 区 的 大 小 为 DB。( 如 果 我 
们 也 计算 输出 的 缓冲 区 ,对 算法 5.4.6F 我 们 总 共有 60DB 缓冲 区 记录 在 内 存 中 ,而 
对 于 SyncSort( 同 步 排序 ) 有 SDB 。) 

(b) 当 读 一 组 DD 个 块 区 时 ,我 们 需要 供给 以 前 的 DD 个 块 区 的 缓冲 空间 ,以 及 对 

于 总 共 (2D +1)B 个 记录 的 一 个 未 完成 的 块 区 。( 输 出 需要 另外 的 2DB ,但 是 对 于 
输入 进行 2 路 合并 的 许多 数据 操作 产生 比较 少 的 输出 。) 

24. 设 在 年 代 次 序 下 的 第 /个 块 区 是 路 段 & 的 块 区 j ;特别 是 ,对 于 1 声 1 志 P,j 
=0 和 ,= 1。 我 们 将 在 时 间 t= 了 ;_ tna 时 读 该 块 区 ,其 中 

ts 二 | ri1l 和 受过 /和 &R = kMR(r, + jmod D= dl 
是 在 按 年 代 三 7 的 盘 d 上 路 段 & 的 块 区 个 数 ,而 且 4 二 (xwy+ 放 )mod DD, 设 Ul = 
frill 过 xr 过 7 和 k,=&||; 于 是 
， - Es (d 2 mod -| 
因为 当 1 志 r 志 7/ 和 & =R& 时 j, 跑 遍 值 0,1,…,w 一 1。 对 于 (19),(20) 和 (21) 的 例 
子 ,序列 六 是 
11111 22223 43456 34567 82345 67893… 

如 果 1 >>P, 当 我 们 从 在 编 年 次 序 下 的 第 / 个 块 区 开始 合并 时 需要 的 缓冲 块 区 
的 个 数 是 I+ D+P, 其 中 工 是 的 “磁带 有 相等 的 反 序 ” 的 个 数 , 即 | |r|r>1/ 和 
过 ty |, 这 即 是 我 们 已 经 阅读 但 还 未 来 得 及 使 用 的 满 缓冲 区 的 个 数 ;DD 表示 下 一 
输入 所 要 用 的 缓冲 区 ,P 表示 部 分 满 的 缓冲 区 ,我 们 而 且 正 从 中 进行 合并 ， 要 特别 
小 心 ,使 用 像 在 SyncSort 中 的 链接 时 ,我 们 可 能 把 后 一 个 要 求 从 PP 减少 成 P-1, 但 
是 额外 的 复杂 性 大 概 使 这 不 值得 。) 

所 以 归结 才 起 来 问题 是 得 到 对 的 一 个 上 限 。 我 们 可 以 假定 ,输入 路 段 无 穷 地 
长 。 假 设 元 素 | 半 ，…, 寻 中 个 大 于 如 则 刀 有 2D-2+s 和 磁带 有 相等 的 反 序 ,因为 
恰 有 2D 个 元 素 是 三 4 的 。 由 此 得 出 , 当 ;=0 时 极 大 值 出现, 而且 zw 是 自 左 到 
右 的 极 大 值 。 我 们 有 iw = 71; 因此 由 上 面 对 于 的 公式 


P 
Lh<thax(uD -DE oun- (d- xr)mdD+D-1- ux)= 
k=1 
Pp 
P(D-1)- >(a -zx)modD < 
k=1 
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P(D-1)-— ,min 2 (4 — xX,)mod D 
因而 存在 编 年 次 序 ,对 于 它们 来 说 ,可 达到 这 个 上 限 。 
假设 zx 中 的 个 等 于 上 ,我 们 要 选择 zj 使 得 mino<i<psad 是 极 大 的 ,其 中 54 = 
>-1(d 一 zz) mod D= rio((d 一 1) mod DD)r,。 我 们 可 以 假定 极 小 值 在 4 =0 
处 出 现 。 于 是 sj =s0+P-r1D,s;= 二 sj+P-rD,… 因 此 我 们 有 ri PI/Dj|,rit+ 
r2 硅 [2P/D1,… 由 此 得 出 ,由 习题 1.2.4-37, 极 小 值 是 


D-1 
so0= (D-DDrit(D-2)r2+t+ + rp LEPID)J = 
k=1 


3((P _ 1D)(D-1)+gcd(P,D)-1) 
对 于 1 二 ;三 P, 当 x;=[jD/P | 时 ,达到 这 个 上 限 。 


如 果 我 们 有 每 个 含 B 个 记录 的 1 + D+P= 广 PD+ 了 D+ 廊 P+ 广 gcd(P， 
D) -1 个 输入 缓冲 区 ,通过 这 样 的 = ,我 们 可 以 以 全 速 来 处 理 每 个 编 年 次 序 的 序 
列 。( 当 万 =2 或 3 时 ,这 十 分 之 好 。) 

25 .注意 在 时 间 4 时 ,我 们 回头 来 读 磁 盘 0 的 亡 


活动 的 阅读 活动 的 合并 草稿 等 竺 
时 间 1 e0008040c0 一 一 -一 一 一 一 (一 一 一 一 一 一 一 ) a0 
时 间 2 fidodi1d;, fo 40- 一 一 一 一 一 bocokeog0 一 一 一 ) do 
时 间 3 a2hoe2g1d3 4000cod0 一 一 一 eofogo(did2 方 一) ho 
时 间 4 fieib1g1a1 aobocodoeofogoho di(d2e2d3f1g1a2) el 
时 间 5 a2f2h1ie3g? aobocodie1fogoho d2e2d3a1f1b1811() &2 
时 间 6 daa3f3b2e4 a2b1icod3e2f1g81ho felhig2— ——) da 
时 间 7 Cc143f3? 64 a2b1icodae3f2g1ho (hib2g2a3f3e4— ) C1 
时 间 8 ? dsde?? azbicidae3fgiho hibg2a3f3e4(?) d; 


26. 当 正在 读 DD 个 块 区 和 正在 写 个 块 区 时 ,在 (24) 的 假定 之 下 ,合并 过 程 可 
能 生成 多 达 P+ Q 一 1 个 输出 的 块 区 。( 不 是 P+ Q, 因 为 只 有 一 个 合并 缓冲 区 变 成 
完全 空 的 。) 读 和 写 一 样 地 快 ,所 以 对 防止 输出 障碍 来 说 D+ P+ QQ 一 1 个 输出 缓冲 
是 必要 和 充分 的 。 

然而 ,平均 说 来 ,对 于 每 D 个 输入 块 区 ,至 多 有 个 块 区 是 供 输 出 的 ,所 以 在 实 
用 中 3D 个 输出 缓冲 区 将 是 足够 的 。 

27.(a) FE, (m1,…, my) 二 222141, 其 中 gq, 是 菜 个 合 至 少 包 含 :i 个 球 的 概率 。 
显然 ,g, 三 1 且 
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0 二 Pr( 管 大 至 少 包 含 ! 个 球 ) = mnPr(S (m1,… ,my) 之 1 
(b) 。 的 概率 生成 函数 是 
pz) = || z*(1+ (zx -1)r/n) 


其 中 g,=Lmy/nj 和 ,= mj mod nn ,现在 当 a 宇 0 时 ,1 +a 三 (1+a/n)”" 和 1+ar/n 
和 (1+ ua/jzp)7 ;因此 我 们 有 Pr(Sn (mi,…,m,) 宇 ti) 三 (1+a) (1+a) 委 (1+ 
a) ‘llf-i1(l+a/ln)™=(l1+a) ‘(1l+a/n)”。 

如 果 zf 三 mjn ,在 所 述 的 极 小 中 我 们 用 “1” 的 项 。 如 果 :>>m/n, 当 a= (nt 一 
m)/(m 一 t) 时 量 (1+a) ‘(1+ af/n)” 取 它 的 极 小 值 (n 一 1)” im”/(n”ti(m 一 
1)” ')。 

28. 数值 的 证 据 看 来 支持 这 个 自然 的 猜测 。 例 如 :我 们 有 

Eio(1,1,1,1,1,1,1,1)=2.3993180, Ei0(2,2,2,2)=2.178, Ei0(4,3,1)=2.00, 

Ei0(2,1,1,1,1,1,1)=2.364540, Ei0(3,2,2,1)=2.166, Elio(5,2,1)=1.98, 


Ei0(2,2,1,1,1,1)=2.32076, Ei0(3,3,1,1)=2.152, Ei0(6,1,1)=1.94, 

Ei0(3,1,1,1,1,1)=2.29958, Ei0(4,2,1,1)=2.138, Ei0(4,4)=1.7, 
E10(2,2,2,1,1)=2.2628, Ei0(5,1,1,1)=2.090, Ei0(5,3)=1.7, 
Ei0(3,2,1,1,1)=2.2460, Ei0(3,3,2)=2.02, Ei0(6,2)=1.7, 
Ei0(4,1,1,1,1) =2.2076, Ei0(4,2,2)=2.01, E10(7,1)=1.7, 


29.(a) 在 时 间 上 时 ,所 有 磁盘 所 读 的 那些 块 区 ,都 是 不 早 于 时 间 上 时 标记 的 块 
区 才 出 现 的 。 一 旦 它们 已 被 阅读 ,下 Q 个 块 区 决 不 从 草稿 缓冲 区 删 去 。 因 此 在 磁 
胡 7 上 有 关 的 块 区 都 在 小 于 等 于 : 十 N; 的 时 间 被 阅读 ;在 t 十 max (No,, Np-_1) 
的 时 间 它 们 必定 全 都 参与 到 合并 当中 。 

(b) 在 一 个 加 标记 的 块 区 之 后 如 果 第 Q@+1 个 块 区 未 被 删 去 , 则 相同 的 论证 适 
用 。 否 则 以 前 的 Q 个 块 区 未 被 标记 ,因而 Q+2 个 块 区 不 可 能 全 都 在 不 同 的 磁盘 
上 。 

(c) 把 编 年 顺序 的 块 区 分 成 为 大 小 Q +2 的 一 些 组 ,并 且 考 虑 任何 特定 的 组 。 

如 果 从 路 段 & 有 Mi 个 块 区 , 则 数 Ni 在 对 于 n =D 和 m= Q+2 的 一 个 循环 占据 问 
题 中 ,等 价 于 第 7 个 侈 中 球 的 个 数 。 因 此 在 任何 组 中 预期 的 标记 了 的 单元 数 至 多 是 
习题 27(b) 中 的 上 限 。 把 这 上 限 叫 做 e, (m), 我 们 可 以 取 rr(d,m)= (dj/m) 
es'(m)o 

[实际 上 , 当 m 很 小 时 ,这 个 函数 r(2,m) 不 是 对 m 单调 的 。 因 此 对 于 表 2 中 
的 7r(2,4) 和 xr(2,12) 所 列 的 项 实际 上 是 xr(2,3) 和 7x(2,11) 的 值 ; 男 外 的 缓冲 区 不 可 
能 增加 被 标记 的 块 区 的 个 数 。] 

30. 令 1=「『(s+V2sln 4d |,a=vV2/s。 于 是 

es(sdln d)< 171+ Dd(l+a/ld)* dd/(l + a)’ = 


tit>1 
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Il+d(l+a/ld)* /a(l + ao) < 
[+a exp((ln d)(1+ sa— (st+ V2s)In(1 + a))) 
而 且 (s+V2s)In (1+a)>sa+1-a/3。 因 此 如 果 s/(log d) 一 oo， 


dlnd 
1 过 xr(d,sd nd)= 4 t+ 


记 i 7 1 + En d + O(s !'(log qd)) 
对 这 个 渐 近 特性 的 收敛 是 稍微 慢 的 ( 见 表 2)。 
31.( 当 Q=0 时 ,我 们 标记 头 一 个 块 区 而 后 重复 地 标记 下 一 个 这 样 的 块 区 ,在 
由 以 前 已 标记 的 块 区 开始 的 组 中 ,这 个 块 区 同 其 中 的 一 个 块 区 共享 一 个 磁盘 。 例 


如 ,如 果 磁 盘 的 访问 的 编 年 次 序 是 112020121210122 , 则 标记 将 是 112020121 


210122。 因 此 , 当 p 一 时 ,在 个 时 间 单 位 期 间 , 我 们 平均 读 Q(D)n 个 块 
区 ,其 中 Q 是 在 等 式 1.2.11.3-(2) 中 定义 的 Ramanujan 图 数 。 与 之 对 照 ,r(Q ,2) 
=(dg+1l)/2 给 出 一 个 悲观 得 多 的 佑 计 。) 


5.S 市 
1 .在 一 个 给 定 的 状态 下 浏 定 万 一 个 排序 算法 最 好 十 办 难 的 。 | 


2. 对 于 小 的 NN, 表 插 入 ;对 于 中 等 的 NN, 例如 ,NN = 64, 表 合并 ;对 于 大 的 NN, 基 
数 表 排 序 。 

3.( 由 V.Pratt 给 出 的 解 ) 给 定 有 待 合并 的 两 个 非 减 的 路 段 c ,8 ,以 一 个 直 堆 了 
当 的 方式 确定 子路 段 a1a2Q3B1B2B3 ,使 得 QQ2 和 B2 正好 包含 Q 和 有 的 键 码 中 具有 整 
个 文件 中 值 的 那些 键 码 。 通 过 逐次 的 “ 苏 倒 ” ,首先 形成 aiasBia3PBsB3, 然后 
xl1pia28xa3sp3 ,然后 gal1Bia2B2a3Bs, 我 们 就 能 把 这 个 问题 归结 为 合并 有 长 度 志 N12 
的 两 个 子 文件 a1B1 和 asBs 的 问题 。 

由 L. Trabb Pardo 提出 的 一 个 相当 复杂 的 算法 提供 了 对 于 这 一 问题 最 好 的 渐 近 
答案 :仅仅 使 用 O(log N) 个 二 进位 的 辅助 存储 作为 固定 数目 的 下 标 变 量 之 用 ,而 无 需 
以 任何 方式 变换 诸 记 录 ,我 们 就 能 在 O(N) 的 时 间 进 行 稳定 的 合并 和 以 O(Nlog N) 
的 时 间 进 行 稳定 的 排序 。[SICOMP 6 (1977),351 ~ 372)。 黄 栗 超 和 M. A. 
Langston, Comp..J. 35 (1992),643~650 已 经 以 小 得 多 的 和 常数 因子 实现 相同 的 时 间 
和 空间 的 上 限 。 当 M 比 NN 小 得 多 时 , M 个 项 目 和 NN 个 项 目的 稳定 合并 ,也 见 A. 
Symvonis, Comp.J. 38 (1995) ,681 一 690 。 

4. 仅 仅 直接 揪 入 , 表 捅 和 人 ,以 及 表 合 并 。 快 速 排序 的 变形 可 以 做 成 音 亩 的 ,但 是 
仅仅 以 内 循环 的 额外 工作 为 代价 。( 人 参见 习题 5.2.2-24。) 

当 比较 的 结果 不 是 100% 可 靠 时 , 音 冀 的 方法 特别 有 用 ,参见 D.E. Knuth,Lec- 
ture Notes in Comp. Sci. 606 (1992 ) ,61 一 67。 
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习题 答案 


6.1 有 


1.V(N-1)/12。 参 见 等 式 1.2.10-(22)。 
2 S1 ， [初始 化 ] 置 P<-FIRST。 
. [比较 ] 如 果 K=KEY(P), 则 算法 成 功 地 结 
. [前 进 ] 置 P<-LINK(P)。 
. [文件 结束 ?] 如果 P 关 A, 则 转 回 S2’。 否 则 这 个 算法 以 失败 告终 。 1 


3. KEY EQU 3:5 
LINK EQU 1:2 
START LDA K 1 
LD1 FIRST 1 
2H CMPA 0,1(KEY) C 
JE SUCCESS C 
LD1 0,1(LINK) C 一 
J1NZ 2B C 一 
FAILURE EQU x 1—S | 


运行 时 间 是 (6C -3S+4)u。 

4. 是 ,如 果 我 们 有 方法 置 “KEY(A)” 等 于 的 话 。|[ 但 在 程序 Q 中 使 用 的 循环 重 
复 技术 ,在 这 种 情况 下 无 效 。] 

5. 否 ;程序 Q 总 是 至 少 做 和 程序 Q 同样 多 的 操作 。 

6. 以 JE x+4;CMPA KEY+N+2,1;JNE 3B;INC1 1 代替 行 08; 而 且 把 行 03 
一 04 改变 成 为 ENT 1 -2-N; 3H INC1 3。 


欧 拉 求 和 公式 给 出 
1-x | Br ， Bx(x+1) ,, _3-x 
Hi = Hr) + H+ Tn 本 1 一 并 7 — O(n™’ ) 
复 变 理论 告诉 我 们 


rz JT( x)t(1 -zx) 


iD | 一 


5( 工 ) = 2 sin| 
这 是 当 x<0 时 特别 有 用 的 一 
9.(a) 是 :Cn=N-N HN%Y=N+1-N HV ”= 


N-0 
N 


0 
1+0 


)))= N+tN! oIT(1—-0)+1)+ 


N+3+O(N- 0), 


oi (| 
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O(N! *?), 
(co) 当 0<0 时,(11) 不 是 一 个 概率 分 布 ;(16) 给 出 Cy= -一 CT(1- 0)Ni+9+ 


1+0 

O(N “)+ O(1) 的 估计 以 代替 (15)。 

10. i 三 … 志 pn;( 极 大 值 Cy) = (N+1) -( 极 小 值 Gy)。[ 类 似 地 ,在 不 等 长 情况 
下 , 极 大 平均 查找 时 间 是 Li(1+ p1) +… + Ly(1+ pn) 减 去 极 小 平均 查找 时 间 。] 

11.(a) f -1(xi ;…,x; ，)p; 的 诸 项 恰好 是 可 能 已 在 前 面 的 的 诸 要 求 序列 的 
概率 ,这 些 要 求 序列 均 使 R; 留 在 位 置 m 中 。(b) 第 二 个 恒等式 从 累计 在 X 的 不 同 
的 m 子 集 上 开头 的 { ”种 情况 得 出 ,注意 每 个 Pu 出 现 的 次 数 。 第 三 个 恒等式 从 第 
二 个 通过 反 序 得 来 。 [或 者 ， 可 以 使 用 容 斥 原理 。 (c) 2 1 0 mP,,, 一 nQ 
Qn_1); 因 此 


nn 





1 
d= 1+(N DD- pi2 Fr 
Spa= No Tht NN Spr p22 
i pit Dp; fe ” pi+p; 
等 式 (17) 


注意 :W .J].Hendricks[J. Applied Probability 9 (1972) ,231 一 233] 发 现 了 对 于 记 
录 的 每 一 个 排列 的 稳定 状态 概率 的 一 个 简单 公式 。 例 如 , 当 N=4 时 ,这 个 序列 将 
是 R3RiR4R2 且 有 极限 概率 
p3 pi pa4 Pp2 
Pat ptpatp; pitpatp,. Pit+p, pb 
James Bitner[SICOMP 8 (1979) ,82~~85] 证 明 , 如 果 表 原来 处 于 随机 次 序 , 则 在 1 次 


随机 请 求 之 后 预期 的 查找 时 间 超 过 Cw 的 数量 是 卫 允 ;(p; 一 pp)?(1- pi- pj)'/(p; 





+ 方 )。 因 此 平均 说 来 ,+ 次 查找 加 在 一 起 要 求 少 于 iv + 地 卫 (pi; 一 pj)?/( p+ 


p;)’< Cy + 也 


jolet,D. Gardy 及 L. Thimonier ,Discrete Applied Math. 39 (1992) ,207 一 229, § 6。 
12. CN 一 21 +227281(22+1), 它 迅速 地 收敛 到 2x' <z2.5290; 习 题 5.2.4- 
13 给 出 a 的 值 到 40 位 数字 。 
13 .在 计算 了 相当 麻烦 的 求 和 


1 ,2 _ n(n+1)(2n+1) | n(n+1)(i0n—1) 
4 Hg 6 (2H,, H,) 6 





N 
] 次 比较 。 关于 通过 生成 函数 给 出 的 有 启发 的 证 明 , 请 见 P. Fla. 
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cv = SN - $2N +1)(CE — H,)+ > _ 3(N + 1)-1 2 .409N 

14. 我 们 可 以 假定 zl 三 x; 生 … 志 x; ; 则 当 Ya 全 ya, 全 “全 ya 时 ,出 现 极 大 值 ,而 
当 y 之 … 之 ys 时 出 现 极 小 值 ,这 是 根据 类 似 于 定理 S 中 所 作 的 论证 得 到 的 。 

15. 如 同 在 定理 S 中 那样 论证 ,排列 RIR,… RN 是 最 优 的 充 要 条 件 是 

PI/Li(1 ~ Pi) 宇 … 寡 Pv/Ln(l1 - PN) 

16. 当 且 仪 当 TI/(1 pi) 二 … 夺 TN/(1 一 pn) 时 预期 的 时 间 Ti + pi1T,+ 
Pip2T3+ 二 pip2… Pn-1iTw 外 极 小 化 。[BIT 3 (1963) ,23$ 一 236; James R. Sla- 
gle 得 到 了 一 些 有 趣 的 推广 , JACM 11 (1964) ,253 一 264。] 

17. 以 递增 的 截止 时 间 ( 它 们 同 分 别 的 时 间 T; 无 关 ) 的 顺序 做 诸 工 作 ! [当然 ， 
实际 上 某 些 作业 比 其 它 作 业 更 重要 ,因此 我 们 可 能 要 使 极 大 的 加 权 延 缓 极 小 化 。 或 
者 ,我 们 可 能 希望 使 和 数 忆 -max(T. + …+ T。- D。 ,0) 极 小 化 。 看 来 这 些 问题 
中 没有 一 个 是 有 一 个 简单 的 解 的 。] 

18. 设 h=|s 存在]。A=1jlg<rl,B= {jlg=r|,C=1jlg>r},D= 
1j 1 >01; 则 对 于 (g,r) 要 排 的 种 ; jpipjd |;-; | 减 去 对 于 (gq ,rx ) 要 排 的 对 应 的 和 
等 于 
2 2 (g — ri)(gq;— ri)(qd|ij;| 一 dt 下) 十 


2 > (ai 一 方太 ( CA) di;_1+j) 


这 是 正 的 ,除非 C= 台 或 AUD= 名 。 由 于 当 m=0,1 时 它们 左 - 右 双重 性 ,风琴 管 
的 那些 安排 法 是 仅 有 的 、 不 可 能 被 这 个 构造 改进 的 排列 ,由 此 即 得 出 所 希望 的 结果 。 

[这 个 结果 实质 上 是 G. H. Hardy\J.E. Littlewood 以 及 G. Polya 给 出 的 Proc. 
London Math. Soc. (2) ,25 (1926)265 一 282。 他 们 证 明 , 事 实 上 ,在 诸 p 和 诸 g 所 有 
独立 的 安排 , 当 诸 上 和 诸 g 都 在 一 致 的 风琴 管 次 序 下 时 , >; ;piqjd |;_;| 达到 极 小 
值 。 关 于 进一步 的 评述 和 推广 , 见 他 们 的 专著 Inequalities (剑桥 大 学 出 版 社 ,1934)， 
第 10 章 。 

19. 所 有 安排 都 是 同样 好 的 。 假 定 a(j ,j)=0, 我 们 有 

Spibid 0 i) = 3 Spi (dln)) + d(j,i)) = 


[对 于 i 关 ; 的 特殊 情况 d (i， 了) 三 1 十 i 一 1) mod NN 是 KK.E. eon fA Program- 
ming Language (New York: Wiley, 1962),138 中 给 出 的 。R. L. Baber (JACM 10 
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(1963) ,478 一 486 ,已 经 研究 了 一 条 磁带 可 以 向 前 读 , 重 绕 或 不 读 而 倒退 & 个 块 时 
同 磁带 的 查找 有 关 的 某 些 其 它 问题 。W.D. Frazer 发 现 , 如 果 人 允许 我 们 复制 文件 中 
的 某 些 信息 , 则 有 可 能 相当 大 量 地 减少 查找 时 间 ; 关 于 一 个 类 似 问题 的 经 验 解法 参 
考 E.B. Eichelberge, W.C. Rodgers 和 E. W. Stacy,IBM J. Research & Development 
12 (1968),130~159.] 

20. 如同 习 题 18 中 那样 ,以 mx =0 或 m=h=1 从 (gq,7) 进 行 到 (gqg ,xr ) 给 出 了 


> (on -rd ) — min(dyrir2g ij ditj-1)) 


IEA, EC 

的 纯 变 化 , 除 A 或 C 为 O 外 它 都 是 正 的 。 由 循环 对 称 性 得 出 , 仪 有 的 最 优 安排 吓 风 
琴 管 配置 的 循环 移 位 [对 于 具有 相同 答案 的 一 类 不 同 的 问题 , 见 工 .S. Motzkin 和 下. 
G. Straus,Proc. Amer. Soc. 7 (1956)1014~1021|]。 

21. 这 个 问题 实际 上 是 由 L. H. Harper 首先 解决 的 ,SIAM 12 〈1964) , 131 一 
135 ,关于 推广 及 其 它 工 作 的 参考 文献 , 见 J. Applied Probability 4〈1967) ,397 一 401。 

22. 大 小 为 1000 的 一 个 优先 队列 (比如 说 ,表示 为 一 个 堆 , 见 5.2.3 小 太 )。 在 
这 个 队 中 插入 前 1000 个 记录 ,并 把 具有 最 大 4(K;,K ) 的 元 素 放 在 前 端 。 对 于 满足 
d(K;,K)<a( 队 的 前 端 ,K ) 的 每 一 个 后 继 K; 以 R; 代替 前 端 元 素 ,并 对 队 进 行 重 
新 调整 。 


6.2.1 小 刷 


1 .归纳 地 证 明 , 每 当 我 们 达到 步骤 B2 时 K, ,<K<K,ii; 而 且 每 当 达 到 B3 
时 , /过 i1 人 uo 

2.(a,c) 否 ;如 果 1=u 一 1 和 > K, 则 它 循环 。(b) 是 , 它 是 行 的 !。 但 当 不 存 
在 KK 时 ,将 经 常 有 对 于 1=w 和 K<K, 的 循环 。 

3. 这 是 对 于 N =3 的 算法 6.1T。 在 一 次 成 功 的 查找 中 ,该 算法 平均 作 (N + 1)/ 
2 次 比较 ;在 一 次 不 成 功 的 查找 中 , 它 作 N/2+1-1/(N+1) 次 。 

4. 对 于 N=127 它 必然 是 一 次 不 成 功 的 查找 ;因此 由 定理 B, 答 案 是 138u。 

5. 程 序 6.1Q 有 1.75N+8.5--(N mod 2)/4N 的 平均 运行 时 间 ; 这 胜 过 程序 B 
当 且 仅 当 N 委 44。[ 仅 仅 对 于 N11 它 胜 过 程序 C。] 

7.(a) 肯 定 不 是 。( 切 算法 U 中 磁带 圆 括 弧 的 注释 将 始终 成 立 , 所 以 它 将 是 有 效 
的 ,但 当 N 为 奇数 时 仅 当 Ko= 一 和 Kwn41= +oco 两 者 都 出 现时 才 是 如 此 。 

8.(a)N。 通 过 归纳 法 证 明 这 一 点 是 有 趣 的 ,注意 ,如 果 我 们 以 N + 1 来 代替 
NV, 则 诸 5 中 恰 有 一 个 增值 。[ 关 于 一 个 推广 , 见 AMM 77 (1970),884。](b) 极 大 值 
= 了 6;=N; 极 小 值 =261 一 6)=N mod 2。 
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0 四 公信 2 
10. 使 用 “ 宏 扩 展 " 程 序 ,其 中 包括 诸 DELTA; 因 此 ,对 于 N = 10: 


START ENT1 5 
LDA K 
CMPA KEY,1 
JL C3A 
CAA JE SUCCESS C3A EQU * 
INC1 3 DECLT 3 
CMPA KEY,1 CMPA KEY,1 
JL C3B J GE C4B 
C4B JE SUCCESS C3B EQU 兴 
INC1 1 DEC1T 1 
CMPA KEY,1 CMPA KEY,1 
JL C3C JGE C4C 
C4C JE SUCCESS C3C EQU x 
INC1 1 DEC1T 1 
CMPA KEY,1 CMPA KEY,1 
JE SUCCESS JE SUCCESS 
JMP FATLURE JMP EAIELURE | 


[习题 23 表明 大 多 数 “JE” 指 令 都 可 消去 ,同时 产生 大 约 长 6 lg N 行 的 程序 , 它 只 
化 费 大 约 4 lg N 个 时 间 单 位 ;但 仅仅 对 于 N 写 1000( 近 似 地 ) 这 个 程序 才 是 更 快 的 。] 
11. 考 虑 相应 的 树 ,例如 图 6: 当 N 是 奇数 时 ,这 个 根 的 左 子 树 是 右 子 树 的 一 个 


镜面 映像 ,所 以 K< K; 出 现 的 次 数 同 K > K, 一 样 多 ;平均 有 ,C1= 汪 (C+ S), 而 


是 C2= 广 (C- S),4= 广 (1- S)。 当 NN 是 偶数 时 ,这 株 树 和 对 于 N+1 的 一 株 树 


相同 ,其 中 所 有 标号 减 1, 但 @ 变 成 元 余 ; 平 均 说 来 , 命 上 =Llg N 」。 我 们 有 
i k C2 k 








Cl= 一 -和 ， C2= +， A=0， 如 果 S=1 
C1= 各 让 二 C2 = Rt i 如 果 S=0 
(正文 中 指出 了 C 的 平均 值 。) 
人 
(8) 
4) 
(2) 人 
To 
ool 2 | 8| [9| [lo] [1] 12 
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13. 
N=1 2 3 4 9 6 7 8 9 10 11 12 13 14 1S 16 
1 1 1 1 ~ 2 3 » 1 2 3 3- 4 ，。 1 
CN 三 1 1 工本 2 可 二 2 过 了 了 38 3 3 3 3 本 3 13 3 177 3 715 4 
Ch=113 了 2 2 二 2 人 3 3 3 人 3 向 3 语 3 匣 4 4 4 4 4 号 


14. 一 个 思想 是 求 使 得 N + M 有 形式 Fi ,1 一 1 的 最 小 的 M 宇 0, 然 后 在 步骤 Fl 
中 以 i 一 Fi 一 M 开 始 , 而 且 在 步骤 了 2 的 开头 处 插入 “如 果 i 二 0, 则 转向 F4。” 一 个 更 
好 的 解决 方法 是 ,对 于 斐 波 那 契 的 情况 采取 Shar 的 思想 :如 果 最 初 比较 的 结果 是 K 
> Ke , 则 置 ;< 一 M 并 转 到 步骤 F4( 从 这 以 后 正常 进行 )。 这 就 避免 了 内 循环 中 
的 额外 时 间 。 

15. 外 部 市 点 出 现 于 级 Lk/2j] 到 & 有 一 1 上 ;这 些 级 之 间 的 差别 大 于 1, 除非 当 = 
0,1,2,3,4 时 。 

16. 在 2.3.2 市 的 “自然 对 应 ”之 下 ,如 果 我 们 撤销 线性 图 表 最 项 部 的 节点 , 则 阶 
为 & 且 左右 题 倒 的 斐 波 那 契 树 ,是 对 应 于 直到 第 & 个 月 止 的 线性 图 表 的 二 又 树 。 

17. 设 路 径 长 度 是 & 一 A(n); 则 当 0<m<F_i 时 ,A(F;)=j 和 A(F;,+m)= 
l1+A(m 人)。 

18. 成 功 的 查找 : A, =0,C= (3kFiyi + (RkR-4)F)/5(F,i -1)-1,c1,-= 
Ce-1(F, 1)/(F,i+1 一 工 )。 不 成 功 的 查找 : A， 一 Fi/ Fr1, Ch 一 (3kF, 41 + (k—4) 
F,)/SF, ,1,C1, 一 CiFi/F,ri + F,_i/F,s1o CC 一 C C1o (关于 有 关 的 递 推 式 
的 解 ,参见 习题 1.2.8 一 12.。) 

20.(a) 5b 二 pp ?fg “。(b) 至 少 有 两 个 错误 。 第 一 个 大 错误 是 该 因子 不 是 一 线 
性 函数 ,所 以 它 不 能 简单 地 “平均 之 ”。 实 际 上 剩 下 pN 个 元 素 的 概率 为 六 , 剩 下 gaN 
个 的 概率 为 g ,所 以 我 们 可 预期 剩 下 (六 + gq )NN 个 ;于 是 ,平均 的 减少 因子 实际 上 是 
1/(p“+ gq )。 现 在 在 次 迭代 之 后 的 减少 因子 是 1/(p?+ gq?*)*, 但 我 们 不 能 作出 结 
论说 5=1/(p*+ do) ,因为 找 出 某 些 项 所 需要 的 迭代 次 数 要 比 找 出 其 它 的 项 多 得 
多 。 这 是 第 二 个 失误 。[ 作 出 似是而非 的 概率 论断 是 非常 容易 的 ,但 我 们 必须 时 刻 
防止 这 样 的 圈套 ! 

21. 它 是 不 可 能 的 ,因为 这 个 方法 依赖 于 键 码 的 值 。 

22. FOCS 17(1976) ,173 一 177。 也 请 参见 Y. Perl,A. Itai 和 H. Avni, CACM 
21(1978),550~554; G.H. Gonnet,L.D. Rogers 和 J.A. George Acta. Informatica 13 
(1980),39~ 52;G. Louchard,RAIRO Inform. Théor 17 (1983),365 ~ 385;Comput- 
ing 46(1991),193 一 222。 方 差 是 O(log log N )。G. Marsaglia 和 B. Narasimhan 所 
作 的 广泛 的 经 验 测试 ,Computer and Math. 26 ,8(1993) ,31 一 42 表明 ,平均 的 表 访 问 
次 数 非常 接近 于 lg lg NN ,如果 查找 不 成 功 加 上 大 约 0.7。 例 如 当 N = 2 时 ,在 一 个 
随机 表格 中 的 一 次 随机 成 功 查 找 花费 大 约 4.29 次 访问 ,而 一 次 随机 不 成 功 查 找 花 
费 大 约 5.05。 

23. 当 大 于 等 于 时 转向 右边 , 当 小 于 时 转向 左边 ; 当 达 到 节点 团 时 ,由 (1) 得 出 
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K,; 三 K < K,;1, 所 以 关于 相等 性 的 最 后 一 次 测试 将 区 别 成 功 或 失误 。( 键 码 Ko = 
- co 将 总 是 存在 的 。) 

算法 C 将 被 改变 成 ,如 果 在 步骤 C2 中 K = K,;, 则 转 到 C4。 在 C3 中 如 果 DELTR 
[7]=0, 则 置 i<-i 一 1 并 转 到 C5。 在 C4 中 如 果 DELTALj」]=0, 则 直接 地 转 到 C5。 
增加 一 个 新 步骤 C5:“ 如 果 K = K;, 则 这 算法 成 功 地 结束 ,否则 它 以 失败 告终 。”| 除 
非 N>22 ,否则 这 不 会 加 快 程序 C, 平 均 成 功 的 查找 时 间 从 (8.5 lgN -6)w 变 成 
(8lgN +7)wuo] 

24. 可 以 把 诸 键 码 安排 成 使 得 我 们 首先 置 i 一 1 ,然后 按 K<K, 或 K>K,; 置 i 一 
2; 或 22+1; 当 ;>N 时 ,这 个 查找 是 不 成 功 的 。 例 如 当 N=12 时 , 键 码 的 安排 必须 
是 

Kg < K,<Ko<K,<K<K <KI<KI< KK， <K< 开 < 开 ， 
对 于 在 MIX 上 编 的 程序 ,这 个 方法 大 约 将 花费 6 lgN 个 时 间 单 位 ,所 以 它 比 程序 C 
更 快 。 惟 一 的 缺点 是 首先 建立 表格 时 要 有 点 技巧 。 

2$.(a) 由 于 ao=1-pal=2ao- pa =2ali-- ,等 等 ,我 们 有 A(z)+ 


B(z)=1+2zA(z)。 通 过 考虑 A(1),B(1),B( 方 ),A'(1) 和 B'(1), 从 这 个 关系 立 


即 得 出 在 2.3.4.5 节 中 导出 的 知 干 公式 。 如 果 我 们 使 用 两 个 变量 来 区 别 一 条 通路 的 
问 左 走 和 回 右 走 , 则 我 们 得 到 更 一 般 的 结果 A(z,y)+BGz,y)=1+(z+y)ACz， 
y) ,这 是 在 上 又 树 中 成 立 的 一 个 公式 的 特殊 情况 [参见 R. M. Karp,IRE Transac- 
tions, IT-7(1961),27 一 38 | 。 

(b) var(g)=((N+1)/N)var(h)—-((N+ 1)/N’*) mean (h)*+2, 

26. 如 有 果 我 们 适当 地 排列 左边 和 右边 , 则 具有 一 个 完全 的 & 级 分 布 的 三 条 带 多 
阶段 合并 的 合并 树 就 是 +1 阶 的 韭 波 那 契 树 。( 重 画 5.4.4 方 图 76 的 多 阶段 树 的 
图 形 , 并 颠倒 A 和 C 的 左 和 右 子 树 , 即 得 图 8。) 

27. 2 个 结果 中 至 多 有 +1 个 会 出 现 ,因为 我 们 可 以 把 下 标 排序 ,使 得 K; < 
K, <…< K;。 于 是 这 个 查找 可 以 通过 一 株 在 每 个 节点 处 至 多 有 (+1) 路 分 支 的 
树 来 描述 。 在 第 m 步 中 可 以 找到 的 项 目 数 至 多 是 &(k+1)” ;因此 平均 比较 次 数 
至 少 是 N” 乘 以 多 重 集合 Ik*1,k(k+1)*2,k(k+1)**3,…| 的 最 小 的 NN 个 元 素 之 
和 。 当 N 之 (ER+1) -工时 ,平均 比较 次 数 之 ((R+1) 7 一 1) 2asik(k+1)” mm 
>n—1/k,。 

28. [Skrifter udgivne af Videnskabs - Selskabet i Christiania, Mathematisk 一 
Naturviden 一 skabelig Klasse(1910) ,No.8; 再 版 于 Thue 的 Selected Mathematical Pa- 
pers (Oslo: Universitetsforlaget, 1977),273~310。6](a)T, 有 Fit+F,1= FF,,lF, 
个 叶 ( 这 是 所 谓 的 Lucas 数 工 , =g*”+$")。(b) 这 个 公理 说 To(T,(z))= TIi(xz), 而 
且 当 m=1 或 n=1 时 ,我 们 显然 有 T, (T(x))=T,;%-1(ZX)。 通 过 对 n 用 归纳 
法 , 当 m = 0 时 这 个 结 采 成 立 ; 例 如 , To (Ts3(zx))= To(Ts(xz)* Ti(zx))= 
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To TI(T(7))¥* To( T(z)))= To( TA(T(7x)))= T,(7x),. 最 后 ,我 们 可 以 使 用 
对 7 的 归纳 法 。 

29 .假定 Ko= 一 co 和 天 vi= 天 vi 三 coco。 站 和 匈 对 于 天 ;< Ks 过 … 进 行 一 次 二 
又 香 找 ; 这 至 多 花费 |Llg N 次 比较 。 如 果 不 成 功 , 它 确定 满足 K,_,<K<kK, 的 一 
个 区 间 。 如 果 2) = N+2 则 KK 不 存在 。 否 则 ,对 于 K,,_ 1 的 一 个 二 又 查找 将 确定 使 
得 K,; 2< Ks 1< Kj; 的 i。 于 是 ,或 者 K = KK 1 或 者 K 不 存在 [参见 Theor. 
Comp. Sci. 58 (1988) ,67 | 。 

30. 改 2 =|L Ni4|。 由 天 <K<…< 开 开始 ,通过 把 Ki,K;,…,K,,_ | 和 
形 2 天天 -1 的 一 个 排列 进行 交换 ,我 们 可 以 把 天 ,天 3，…, 开 1 放 和 人 
任何 想 要 的 次 序 。 这 个 安排 满足 前 面 习 题 的 条 件 。 现 在 我 们 设 Ki < K;<…< 
Ks'*'. ;表示 所 有 可 能 的 z 个 二 进位 的 数 之 间 的 边界 ,而 且 按 照 x ,x,,…,x, 的 值 
我 们 把 Ks 1 ,Kzr141 Km -3 插入 到 这 些 “ 围 顶 位 置 " 之 间 。 例 如 ,如 果 
Mm 三 4,t 三 3,Xx!1 二 (001);,x;y 二 (111); 以 及 Xx; 二 ra 二 《100),, 则 所 求 次 序 是 

KI<KkKis<K;< Ks<K< Ko< Ks < Ko<K<K;<K, 
(我 们 也 可 以 令 Ky 在 Kio 之 前 。) 在 子 数 组 Ki1 < K;<<…< K," ;中 对 于 
Ky'',;，; 的 一 次 二 又 查 找 现在 将 从 左 到 右 地 找 x 的 二 进位 。[ 参 见 Fiat, Munro， 
Naor, Schiffer, Schmidt 及 Siegel, J. Comp. Syst. Sci 43 (1991) ,406 一 424。 





6.2.2 小 市 


1 .使 用 一 个 表 头 节点 ,并 设 ROOT = RLINK(HERAD) ;以 P<HEAD 在 步骤 T4 处 开始 
这 个 算法 。 步 又 T5 就 如 同 当 K > KEY(HEAD) 时 那样 执行 。[ 于 是 改变 程序 T 的 行 
04 和 05 为 “ENT] ROOT;CMPA K”|。 

2. 在 步 又 Ts 中 , 置 RTAG(Q)<-1。 还 有 , 当 择 入 左边 时 , 置 RLINK(Q)<-P; 当 插入 
右边 时 , 置 RLINK(Q)<-RLINK(P) 及 RTRG(P)<-0。 在 步骤 T4 中 ,把 测试 “RLINK(P) 关 
A" 改 变 成 为 “RTAG(P) 隆 0”。[ 如果 诸 闻 点 被 成 功 地 插入 到 递增 的 诸位 置 8, 而 且 如 
果 所 有 的 删 去 都 是 后 进 先 出 , 则 可 删 去 RTAG 字段 ,因为 当 且 仅 当 RLINK(P)< 之 Pp 时， 
RTAG(P) 为 1。 类 似 的 注释 对 于 同时 的 左 和 右 穿线 亦 可 应 用 。| 

3. 我 们 可 以 以 一 个 正确 的 地 址 代替 A, 并 在 这 个 算法 的 开始 处 置 KEY(A)<—K; 
然后 可 从 内 循环 撤销 对 于 LLINK 或 RLINK= 人 的 判断 。 然 而 为 了 进行 一 个 正确 的 插 
入 ,我 们 需要 引进 跟随 的 另 一 个 指针 变量 ;这 可 以 在 不 失去 所 述 速度 的 优点 之 下 
进行 ,并 通过 如 程序 6.2.1F 中 那样 重复 代码 的 方法 来 完成 。 于 是 MIX 的 时 间 将 被 
减少 成 大 约 5.5C 单位 。 

4. 对 于 N 宇 2 一 1,Cy=1+(0°:1+1:2+…+ (nm-1)2” 1+ Cr | 十 十 
CN_IAN= (1 十 lIN)CN —1。 对 于 N 宇 2” 一 1, 这 些 方程 的 解 是 Cvy=2(Hy,i 
Hy ) 十 nn, 它 方 省 了 2Hy 一 nn 一 2 之 n(lIn4 一 1) 次 比较 。 对 于 n=1,2,3,4, 实 际 的 改 
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进 分 别 是 0, 二, 了 5 ,$50320; 于 是 对 于 小 的 固定 的 ” 获 利 是 相当 小 的 。[ 关 于 和 一 
个 等 价 的 排序 问题 的 更 详细 的 推导 , 见 Frazer 和 和 McKellar, JACM 17 (1970) ,5302 。] 
5. (a) 第 一 个 元 素 必 须 是 CAPRICORN; 然 后 我 们 把 产生 左 子 树 的 方式 数 乘 以 产 


生 右 子 树 的 方式 数 再 乘 以 (3 , 即 为 把 这 两 个 序列 搅 混 到 一 起 的 方式 数 。 于 是 答案 


成 为 
3 (odo) oda) lo) (odo) (lo) (0)= 4800 
一 般 地 说 ,这 个 答案 是 | ““] 对 于 所 有 节点 的 乘积 ,其 中 / 和 代表 这 个 节点 的 左 
议 


和 右 子 树 的 大 小 。 这 等 于 NI 除 以 子 树 大 小 的 乘积 。 它 和 习题 5.14-20 中 的 公式 
一 样 ;其 实 ,如 果 我 们 以 & 代替 查找 树 中 的 aj( 用 习题 6 的 记号 ) , 则 在 产生 一 株 具 体 
的 查找 树 的 诸 排列 和 在 该 习题 中 统计 的 诸 * 拓 扑 " 排 列 之 间 , 有 了 明显 的 一 一 对 应 。] 
(b) 2 =1024; 在 除开 最 后 一 步 之 外 的 每 一 个 步骤 中 ,插入 最 小 的 或 最 大 的 剩余 
键 码 。 

6.(a) 对 于 其 费用 是 的 已 ;i 个 排列 a1…a,_1a; 中 的 每 一 个 ,按照 wa, 和 mr 或 a， 
宇 m 构造 n +1 个 排列 a j…a ,_ima', ,其 中 a 一 aj;; 或 a;+1o [参见 1.2.5 节 ， 
方法 2o。j] 如 果 mm 一 a 或 a; + 1, 则 这 个 排列 费用 为 k+1, 否 则 它 的 费用 是 有 &。(b) 
G,(z)=(2z+n-2)(2z+n 一 3)…(2z)。 因 此 

p= | 
实质 上 ,这 个 生成 施 数 是 由 W.C.Lynch 得 到 的 [Comp.J (1965) ,299 一 302]。 (ec) 
诸 概率 的 生成 图 数 是 g,(z)= G,(z)/n!。 这 是 诸 简 单 概率 生成 函数 的 一 个 乘积 ， 
所 以 C ，1 的 方差 是 

var(g，) 二 > ar 全 一 2 二 一 | 一 2H, 4H2) + 2 
[由 习题 6.2.1-25(b) ,我们 可 以 利用 CG; 的 均值 和 方差 计算 C, 的 方差 , 它 是 (2 + 10/ 
2) 百 , -4(1+1/2)( 五 六 + H2/n)+4; 这 个 公式 由 G.D.Knott 给 出 。] 

7. 将 进行 同 第 & 个 最 大 元 素 的 比较 当 且 仅 当 该 元 素 出 现在 第 mx 个 元 素 之 前 和 
介 于 第 & 个 和 第 m 个 之 间 的 所 有 元 素 之 前 ;这 以 11(|m -+1l) 的 概率 出 现 。 对 不 
求 和 给 出 答案 日, + HH, ;1_ ,一 1。[CACM 12 (1969),77 一 80; 也 见 工 .Cuibas ,Acta. 
Informatica 4 (197$) ,293 一 298 。 | 

8. (a)gn(z)=z” "Dhig i(z)gn sp(z)/n,go(z)=16 

(b) 7n* —4(n+1)H2 -2(n+1)H,+13n, [P.F.Windley,Comp.J.3 
(1960) ,86 ,给 出 了 一 些 递 推 关 系 , 由 这 些 递 推 关 系 , 可 以 从 数值 上 计算 这 个 方差 ,但 
他 未 得 到 这 个 解 。 注 意 这 个 结果 同 习 题 6 的 答案 中 所 述 的 C, 的 方差 没有 简单 的 关 
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联 。 

10. 例 如 , 键 码 的 每 个 字 xz 都 可 为 az mod m 所 代替 ,其 中 m 是 计算 机 字 的 大 
小 而 a 是 同 m 互 素 的 一 个 随机 乘 数 。 可 建议 采用 接近 于 (#$ 一 1)m 的 一 个 值 见 (6.4 
节 )。 树 方法 的 灵活 存储 分 配 , 使 它 较 之 其 它 散 列 代码 方案 更 有 吸引 力 。 

11.N 一 2; 但 是 这 仅仅 是 在 删 去 ON(N 一 1)…2 时 ,以 1/(NN 1!) 的 概率 出 现 。 


12. 定 理 二 的 证 明 中 地 (n+1)(n+2) 个 删 去 属于 情况 1, 所 以 管 案 是 (N+1)/ 


2N。 

13. 是 。 事 实 上 定理 瑞 的 证 明 表 明 ,如果 我 们 对 于 任何 固定 的 &, 删 去 第 个 插 
人 的 元 素 , 则 结果 是 随机 的 。(G.D. Knottl 斯 坦 福 大 学 博士 论文 ,1975 |] 已 经 证 明 ， 
对 于 任何 固定 的 序列 Ai,…，,A ,在 任意 的 随机 插入 序列 之 后 紧 接着 逐次 删 去 已 插 
人 的 第 (1,… ,ka) 个 元 素 , 则 结果 是 随机 的 。 

14. 命 NODE(T) 在 级 & 上 , 且 设 LLINK(T) = 人 A,RLINK(T)= Ri ,LLINK(R;) = R,,*…， 
LLINK(R4) = 人 ,其 中 Ry 了 关 A 且 d 之 1。 设 对 于 1 二 i 二 4 ,NODE(R;) 在 它 的 右 子 树 中 有 
六 个 节点 。 通 过 步骤 D 1 广 ,内 部 路 径 长 度 减少 &+ d + ni+… + nga; 如果 没有 这 
个 步骤 , 则 它 减 少 k 十 d 十 ML o 

15.11,13,25,11,12。[ 如 果 a; 是 (ai,as,as| 的 (最 小 的 ,中 间 的 ,最 大 的 ), 则 
在 删 去 之 后 得 到 树 (4,2,3)Xx4 次 。] 

16. 是 ;甚至 像 在 定理 英 的 证 明 中 所 定义 的 那样 ,对 于 排列 的 删 去 操作 也 是 可 
交换 的 (如 果 我 们 忽略 重新 编号 这 一 点 )。 如 果 在 X 和 Y 之 间 有 一 个 元 素 , 则 删 去 
显然 是 可 交换 的 ,因为 这 个 操作 仅 受 X 和 了 的 相对 位 置 ,及 它们 的 后 继 者 位 置 的 影 
啊 ; 而 且 在 X 的 删 去 和 Y 的 删 去 之 间 没 有 交互 作用 。 另 一 方面 ,如 果 Y 是 X 的 后 
继 , 而 且 Y 是 最 大 的 元 素 , 则 删 去 的 两 种 次 序 都 有 简单 地 撤销 X 和 YY 的 作用 。 如 
有 果 Y 是 X 的 后 继 者 以 及 Z 是 Y 的 后 继 者 , 则 两 种 删 去 的 次 序 都 有 以 Z 代替 X,Y 
或 2 的 第 一 次 出 现 的 作用 ,而 且 删 去 这 些 元 素 在 这 个 排列 内 的 第 二 次 和 第 三 次 出 
现 。 

18 .使 用 习题 1.2.7-14。 

19.2BN-1-2271R-1)ORN=2HN-1-210+O(CN- )。[Pareto 分 布 
6.1-(13) 也 给 出 相同 的 渐 近 结果 ,直到 O(n “log n ) 的 范围 内 。] 

20. 确 实 是 。 假 定 K<…< 开 N, 使 得 由 算法 工 构造 的 树 是 退化 的 ;如 果 比 如 说 
加 =(1+((N+1l)/2-&)eAN, 则 平均 的 比较 次 数 是 (Nt+1l)/2-(N -1)e/12 ,而 
最 优 树 只 需 少 于 | lg | 次 比较 。 

1393 1 ane cneb On 

21. 8,20,20,20， 8。 (大 部 分 角 是 30" ,60" 或 90 "。) 

22. 当 d=2 时 这 是 显然 的 ,而 对 d>>2 我 人 有 rr[i,j -1 委 rLz+l -IJ 么 
r[i+1,;j。 
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[增加 第 一 个 节点 的 权 将 使 它 最 终 移 到 根 的 位 置 ; 这 提示 ,动态 地 维持 一 株 完全 最 优 
的 树 是 困难 的 。] 

24. 设 c 是 通过 删 去 一 株 最 优 树 的 第 ”个 节点 得 到 的 一 株 树 的 费用 , 则 c (0， 
n 一 1) 达 c 之 c(0,n) 一 g,_1; 这 是 因为 删 去 操作 总 是 把 n 一 上 移 一 级 。 还 有 c(0， 
z)<c(0,2 -1)+c ,因为 所 述 的 蔡 代 产生 最 后 一 个 费用 的 一 株 树 。 由 此 得 出 
c(0,n—1)=c=c(0,n)— gq,_1o 

25.(a) 假设 A 达 B 和 和 BC, 是 a€EA,bEB,cEC,c<a。 如 果 cc 三 5, 则 cE 
B; 因 此 cEA 和 aEB; 因 此 aE€C。 如 果 c>6, 则 a€EB; 因 此 aEC 和 cE€B; 因 此 
cE A。(b) 不 难 证 明 。 

26. 对 于 某 个 实数 y 宇 0 和 整数 1 >0, 每 株 树 的 费用 有 y+ zz 的 形式 。 有 限 个 
这 样 的 函数 的 (对 于 所 有 树 来 取 ) 极 小 值 总 有 所 述 的 形式 。 

27.(a) 习题 24 的 答案 (特别 是 c= c (0,n 一 1) 的 事实 ) 意 味 着 R(0,n 一 1)= 
R(0,n)\ nj。(b) 如 果 1 = , 则 提示 中 的 结果 是 显然 的 ,否则 设 对 于 in 的 各 通路 


= 
AE 


Or 和 WD ;Or 

由 于 r=ro>s0=s 和 ry< sy 二 ,我 们 可 以 求 出 一 个 级 & 宇 0 使 得 zi > ss 和 ,1 三 
se+1o。 由 归纳 法 我 们 有 xi41 ER(ri,n), sar1ER(se,n), 以 及 R(s,,n)R(r,, 
2) 因此 riERCx 2) 和 siER(C 2); 便 得 到 提示 中 的 结果 。 

现在 证 明 Ri; 三 R;, 设 rE Ri,sER,,s<<r, 而 且 考 虑 当 xz= x 时 出 现 的 诸 最 
优 树 ;我 们 必须 有 !/ 宇 坟 且 可 以 假定 /= 4。 为 了 证 明 Rj, 二 R41, 设 rER,,sE 
Rp+1,5<<7 ,而且 考虑 当 z= zj+1 时 出 现 的 最 优 树 ;我们 必然 有 二 三 1 因而 可 以 假 
定 1= lo 

29. 它 是 一 株 YOU 在 项 上 ,THE 在 底下 的 退化 树 ,平均 需要 19.158 次 比较 。 

Douglas A. Hamilton 已 经 证 明 , 总 有 一 株 退 化 树 是 最 坏 的 ,因此 存在 求 翡 观 的 二 
分 查找 树 的 一 个 O(n“) 算 法 。 

30. 参 见 R.L. Wessner,1Information Processing Letters 4 (1976),90 一 94; 姚 期 
智 ,SIAM J. Algebraic and Discrete Methads 3 (1982),532~540。 

31. 参 见 Acta Informatica 1(1972) ,307 一 310。 
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32 . 当 M 足够 大 时 ,最 优 树 必 有 所 述 形式 且 极 小 费用 必 是 M 乘 以 极 小 外 部 通 
路 长 度 加 上 对 于 所 述 问题 的 解 。 

注 :在 答 案 30 中 所 引用 的 Wessner 的 论文 说 明 如 何 来 求 高 度 和 二 的 最 优 二 分 
查找 树 。 在 pj =… = p, =0 的 特殊 情况 下 ,所 述 的 结果 是 由 胡 德 强 和 陈 国 财 给 出 
的 ,MRC 报告 1111( 威 斯 康 辛 大 学 ,1970)。A.M.Garsia 和 M.L. Wachs 证 明 , 在 这 
种 情况 下 ,如果 min ff_1(gs_1+ oa) 之 max- 094;, 则 所 有 外 节点 都 将 出 现在 至 多 两 
级 ,而 且 他 们 给 出 了 一 个 算法 ,该 算法 只 需 O(n) 步 即 可 求 出 一 棵 最 优 的 二 级 树 。 

33. 对 于 所 述 的 问题 ,请 见 A. Itai,SICOMP 5 (1976) ,9 一 18。 关 于 其 它 可 能 
参见 D. Spuler, Acta Informatica 31 (1994),729~740。 

34. 由 Stivling 的 近似 公式 ,如 果 pj…p, 关 0, 它 等 于 Hpi PON (AN ) 1 12 
(Dj (1+ O(N)), 

35. 当 2x=(1-p)/p 时 右边 的 极 小 值 出 现 ,而 且 它 等 于 1-p+H(p,1 一 2p)。 
但 对 于 k=2, 由 (20),H(p， r) 夺 1- pt+H(p,1l-p)。 

36. 首 先 我 们 证 明 提 示 , 这 个 提示 是 由 Jensen 给 出 的 [ Acta Math. 30(1906)， 
175 一 1931]。 如 果 让 是 向 的“ 则 带 g(p)=f(prt+(1-p)y)- pf(rx)-(1-2) 
f(y) 是 四 的 并 满足 g(0)=g(1)=0。 如 果 g(p)<0 和 0<p<1, 则 由 中 值 定 理 必 
有 一 个 值 pp<p 且 g (po)<0 和 一 个 值 > 关上 且 g (pi1)>>0; 但 这 和 巾 性 相 矛 盾 。 
因此 对 于 0 过 p 志 1,f(px+(1-p)y) 宇 pf(z)+(1-p)f(y)。 这 是 在 几何 上 显然 
的 一 个 事实 。 现 在 我 们 通过 归纳 法 证 明 f(pizxi+ + pxn) 之 Pif (x1)+… 十 
psf(zx;) ,因为 若 n>2 则 fC(pizit + parrn)PIf(ri) tt pr-2f (Tn-2) + 
(pi i+ pa)f paiza it prra)l( pr-1it pa))o 

由 引 理 EE, 我 们 有 


H(XY) = H(X)+ 2 pHi(rilpis ,rol pi) 


而 后 一 个 和 是 2% De pp ) < Dr 1 f(r;)= Hl(y), 其 中 f(x)= 
xX lg(1/z) 是 站 的 。 
37. 由 习题 3.3.2 - 26 的 部 分 (a), 我 们 有 Pr(Pl 宇 ;)=(1--s)” "。 因 此 


1 
EH(P …,P)=nEPIg(UP)= a | (1 srld(sle(1/s) )= - (A+ B)/n2, 
0 
1 
其 中 A = | (1 = s)"-1ds = 1 而且 由 习题 1.2.7-13， 
0 


B = | (1 — s)" ilns ds = > J(D 人 (二 一 lns ) = 


因此 答案 是 (HH, -1)/in 2。 (这 是 lgn+(Y 一 1)/ln 2+ O(n ), 非 常 接 近 于 极 大 的 
彤 旦 ( 二 ,… ,一 )=lg n。 因 此 末 (p1,…,p,) 以 很 高 的 概率 是 Q(logn)。) 


Nn 
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38. 如 果 54-1= $4, 我 们 有 qi_1= ps= gq; 二 0; 见 (26)。 构 造 对 于 nn 一 1 个 概率 
(Dj pa;q0, ;G6 1,94141，,… ;4;) 的 一 株 树 , 并 以 一 个 2 叶子 树 
代替 叶 太 二 j。 

39 .我 们 可 以 像 在 定理 M 中 那样 论证 ,如果 0< wl 过 ww 过 … 声 w, 而 且 $= 
wit+ 二 wi, 因为 wi 宇 2 :意味 着 当 诸 权 是 有 序 的 时 ,si +2- 入 雪 2; 
内 此 我 们 有 | oi|<1+lg(1/w)。[ 这 个 结果 ,连同 匹配 的 下 限 昌 (wi ,wy ] 一 起 ， 
征 1948 年 Shannon 的 开创 性 论文 的 定理 9。] 

40. 如 果 &=s+3, 则 所 述 的 重新 安排 把 费用 由 gy_17+ gwl + gq,_s1， ;改变 成 为 
qe -27+ qr-1l+ qlx-2; 所 以 纯 变 化 是 (gi 一 ge)(L 一 4-2); 如 果 71<4_;, 则 这 为 
负 , 因 为 Gk-2> qko 

类 似 地 ,如 果 & 宇 ;+4, 则 这 重新 安排 使 费用 改变 
0 = gn(l— lt) + gsr2(l — L412) + gsr3(lss1 — Lo43) + e+ qe-2(lp4 — le-2) + 

gp-i(ls-3— L) + qi(le 2 — 1) 
我 们 有 qi1>~>dq+3s at2>dq + 92>do 因此 我 们 求 得 
0 么 (ae 2 一 Ge)(/ 一 人 -2) 十 ( gp-3 加 qa-1)(7 -li-3) 0; 
例如 , 当 & 有 一 ;为 偶数 时 ,我 们 有 
OS gal — li) + gp 2(l — L412) + gp 3(lsr1 — Ls43) + e+ 
qe-2(Lp4 — Lp 2) + qi(li3— 1) + qa(lss—1) 
而 且 当 有 一 3 为 奇数 时 ,类 似 的 推导 也 有 效 。 由 此 得 出 ,除非 4 _,= 7 ,否则 6 为 负 。 

41.EFGHTUXYZVWBCDAPORJKLMINOS, , 

42. 设 gq; 王 WI(P;)。 关 键 之 点 在 于 步骤 C2 一 C6 的 动作 使 得 所 有 g 大 于 或 等 于 
dr-1t qx 的 初始 值 。 

43. 调 用 递归 过 程 mark(Pi,0), 其 中 mark(P,7) 意 味 着 下 列 操 作 : 

LEVEL(P) <— /; 
如 条 LLINK(P) 关 A, 则 mark(LLINK(P),/ + 1); 
如 果 RLINK(P) 关 A, 则 mark(RLINK(P),/ + 1)。 
44. 置 全 局 变量 :<-0, m2n ,并 且 调 用 递归 子 程序 build(1), 其 中 build(1) 指 
的 是 下 列 : 
置 7 一 mm; 
如 果 LEVEL(X,) = 7 则 置 LLINK(X)) 一 和 :<-t+1， 
否则 置 mx 一 mm 一 1,LLINK(X;) < x,, 和 build(/ + 1); 
如 果 LEVEL(X,) = 7, 则 置 RLINK(X;) < 上 和 上 <-t+1， 
否则 置 m < mm 一 1,RLINK(X;) < X,,, 和 build(l + 1)。 

变量 ) 是 局 部 于 build 子 程 序 的 。[ 这 漂亮 的 解 是 由 R. E. Tarjan 给 出 的 ， 
SICOMP 6〈1997) ,639。j 告 诚 :如 果 数 10,… ,7 不 对 应 于 任何 二 又 树 , 则 这 个 算法 
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将 永远 循环 。 

45. 把 工作 数组 po,… ,p, 作为 一 个 双重 链接 表 ,这 个 双重 链表 也 有 一 个 平衡 树 
的 链接 (参见 6.2.3 节 )。 如 果 2 递 降 的 权 是 go,… ,9 且 q; 是 树 的 根 , 则 基于 gq; 和 
q;+1 的 值 ,我 们 可 以 判定 在 这 个 树 中 是 向 左 进行 还 是 向 右 进 行 ;双重 链接 提供 了 对 于 
qj+1 的 即时 访问 。( 不 需要 RAND 字段 ;转动 保持 对 称 次 序 , 因 此 它 不 要 求 对 双重 链 
接 的 任何 改动 。) 

胡 德 强 和 Morgenthaler 已 经 给 出 了 可 以 在 O(n) 的 时 间 内 解决 问题 的 藻 干 权 
的 类 。Lecture Notes in Comp. Sci. 1120 (1996),234 一 243 ;一般 地 说 还 不 知道 O(n) 
步 是 否 充 分 。 

46 .参见 IEEE Trans. C-23 (1974) ,268 一 271; 也 可 参见 习题 6.2.3-21。 

47. 参 见 Altenkamp 和 Mehlhorn, JACM 27 (1980) ,412 一 427。 

48 .不 要 让 对 于 NM=3 的 情况 | Jonassen 和 Knuth,J.Comp. Syst. Sci. 16 (1978 ) ， 
301 一 322] 或 N=4[Baeza-Yates,BIT 29 (1989) ,378 一 390] 的 复杂 分 析 使 你 恐惧 , 想 
开 些 ! Louchard, Randrianarimanana 和 Schott, Theor. Comp. Sci. 93 〈1992 ) ,201 一 
225 已 经 报告 了 茶 些 进展 。 

49. 这 个 问题 首先 是 由 J]. M. Robson [Australian Comp.J. 11 (1979),15S1 一 
153], B. Pittel [J. Math. Anal. Applic 103 (1984), 461 ~ 480 |] 以 及 Luc Devroye 
[JACM 33 (1986),489 一 498;Acta. Inf. 24 (1987),277 一 298 |] 考查 的 。 他 们 得 到 了 
极限 公式 , 当 2 一 ce 时 这 些 公 式 以 一 1 的 概率 成 立 。 参 见 由 H. M. Mahmoud ,Evolu- 
tion of Random Search Trees (Wiley, 1992 ) ,第 2 章 。Bruce Reedm [STOC 32 
(2000) ,479 一 483] 证 明了 平均 高 度 是 alnn - (3a ln ln n)/(2a 一 2)+ O(1), 而 方差 
是 O(1) ,其 中 

a = 1/T(1l/2e) > 4.3110704070010050350470760964468902783916 -- 
而 T(z)= ?jn” zx"/n! 是 树 函数 。 
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1. 节 点 的 对 称 次 序 必 须 通 过 变换 加 以 保持 ,否则 我 们 将 失去 一 株 二 分 查找 树 。 

2.B(S)=0 仅 当 S 指向 树 根 时 才能 发 生 (在 步骤 A3 或 A4 中 它 决 不 曾 被 改变 )， 
而 且 从 S 到 插入 点 的 所 有 节点 是 平衡 的 。 

3. 设 ps 是 在 高 度 为 记 的 平衡 树 中 不 平衡 节点 的 最 大 可 能 比率 。 于 是 ol = 0， 
p2= 广 ,03= 广 。 我 们 将 证 明 bh 一 (P+i -1)/(F;+2— 1)。 设 Ti 是 使 o， 极 大 化 的 
一 株 树 ; 则 可 以 假设 它 的 左 子 树 有 高 度 h 一 1 且 它 的 右 子 树 有 高 度 hh 一 2, 因 为 如 果 
两 个 子 树 的 高 度 都 是 hh 一 1, 则 比率 将 小 于 pj -1。 于 是 Ti 的 比率 至 多 是 (os -1Ni+ 
pi_2N,+1)/(Ni+N,+1), 其 中 在 ( 左 , 右 ) 子 树 中 有 (N,N,) 个 节点 , 当 (N,N,) 
取 它 们 的 极 小 值 时 ,这 个 公式 取 它 的 极 大 值 ;因此 我 们 可 以 假定 Ts 是 一 株 斐 波 
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那 契 树 。 而 且 由 习题 1.2.8-28,o <g 一 1。 


4. 当 n=7 时 有 更 大 的 路 径 长 度 。[ 注 :C.C. Foster,Proc. ACM Nat. Conf. 20 
〈1965) ,197 一 198 ,给 出 了 构造 具有 极 大 路 径 长 度 的 N 节点 平衡 树 的 一 个 不 正确 的 
过 程 ;Edward Logg 已 经 发 现 ,Foster 的 图 3 在 24 个 步骤 之 后 给 出 了 一 个 非 最 优 的 
结果 (编号 为 22 的 点 可 被 撤销 以 留 下 编号 为 25 的 节点 。) 

然而 当 a 是 任何 非 负 常数 时 , 阶 为 h 的 斐 波 那 契 数 确实 在 所 有 高 度 为 h -1 的 
平衡 树 工 中 极 小 化 (h + a)N 一 (外 部 路 径 长 度 (T)) 的 值 ;通过 对 有 h 的 归纳 法 这 可 
容易 地 证 明 。 它 的 外 部 路 径 长 度 是 守 hFs 1+ 舍 (h 一 1) FF = ($N5) hE,si + 


OF)=G@C%)。 因 此 任何 N 个 节点 平衡 树 的 路 径 长 度 至 多 是 
min(hN ~ O(h$”) + O(N)) < Nlogs N ~ Nlogs logs N + O(N) 
而 且 如 采 N 很 大 而 且 &=Tlg N1,h=Lk/lg $logy |=logysN -logy logs N+0O(1)， 
我 们 可 以 构造 路 径 长 度 为 hN + O(N ) 的 一 个 平衡 树 如 下 : 写 N+1=F+ Fi+ 
ritN 三 12 一 i412+NN' 并且 构造 在 NN 个 市 点 上 的 一 个 完全 二 叉 树 ; 然 
后 偿 次 地 把 它 同 阶 为 ,k++1,…,h 一 1 的 斐 波 那 契 数 合并 [参见 R. Klein 和 D， 
Wood,Theoretical Comp. Sci. 72 (1990),251~2641。 
5. 这 可 以 通过 归纳 法 来 证 明 ; 如 果 TN 表示 被 构造 的 树 , 则 我 们 有 


—1 
人 人 如果 2 “< N<2 "十 2 一; 


Tn—i 1 Tv-2n- 


一 1] 十 1 
人 ， 如 果 2” 十 2”” 和 N<2 ” ， 


Tn_l TN_2n 


6.zB;(z)Bi(z) 中 zx” 的 系数 是 个 节点 的 二 叉 树 的 个 数 , 这 株 树 的 左 子 树 是 
高 度 为 ; 的 一 株 平 衡 二 又 树 ,而 其 右 子 树 是 高 度 为 的 一 株 平衡 二 又 树 。 
7.Ca+1==C%+2B,-1B,-2; 因 此 如 果 我 们 设 wo=ln2,aui=0, 以 及 w ，= 
ln(1 +2B,4+1B,/C%+2)= O(1/B,C,+2) 和 0 = exp(a0/2+ ai/4 + p18 十 …), 则 我 们 
求 得 0 入 9 - C=C,(exp(a/2+ayri/4+…) -1)<1; 于 是 C, =|02 1。 关于 双 
重 指数 序列 的 一 般 结果 , 见 Fibonacci Quarterly 11 (1973),429 一 437。9 的 表达 式 迅 
速 地 收敛 到 下 列 值 
0 = 1.43687 28483 94461 87580 04279 84335 54862 92481 + 
“ 698 : 
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8. 设 久 =Bi(1)1B 1)+1, 且 设 o=2BiB (一 久 -1)Bhie 则 总 =2， 
bp+1=20p— 6 和 6。 = O(6b,/B;_1); 因 此 b; = 2°B+ r, ,其 中 


B=l- 7a ge 二 
0.70117 98151 02026 33972 44868 92779 46053 74616 + 

而 且 对 于 很 大 的 说 来 = 6/2+ ori/4+ … 极 其 小 |Zhurnal Vychisl Matem. i 
Matem. Fiziki 6,2 (1966),389~394。 E. M. Reingold,Fib. Quart 17 (1979),151~ 
157 得 到 了 对 于 2-3 树 的 类 似 结果 ,|] 

9. Andrew Odlyzko 已 经 证 明 ,平衡 树 的 数目 渐 近 地 是 

c"f (log( yi6+2)3n))n 

其 中 cz1.916067 和 f(x)= f(zx+1)。 他 的 技术 也 将 产生 平均 高 度 。| 参见 Con- 
gressus Numerantium 42 (1984) ,27 一 $2 ,在 这 篇 论文 中 他 也 讨论 2-3 树 的 枚 举 。| 

10. [Inf. Proc. Letters 17 (1983) ,17 一 20] 设 XxX,… ,Xn 是 一 些 节 点 ,并 给 定 它 们 
的 平衡 因子 B(X; )。 为 构造 这 树 , 置 上 <0 并 计算 TREE( co ) ,其 中 TREE(Amax) 是 市 
有 局 部 变量 hh,h 和 Q 的 下 列 递 归 过 程 : 置 h<0,Q 一 人 ;然后 当 h<hmax 和 kk<N 
时 置 &<k+1,h <h+B(X,),LEFT(X,)<-Q,RIGHT(X, )<-TREE(h’),h<-max(h,h ) 
+1,0<-X ;返回 8Q。( 树 Q 有 高 度 h 且 对 应 于 自 进 入 此 过 程 以 来 已 经 读 入 的 平衡 因 
子 。) 即 使 当 |B(Xx; )| >1 时 此 算法 仍 有 效 。 

11. 当 nn 之 2 时 显然 有 和 - -B 和 + -B 同 样 多 的 +RA, 而 且 在 + 和 -之 间 有 对 称 
性 。 如 果 有 M 个 +A 和 一 A 类 型 的 节点 , 当 nn 之 1 时 所 有 可 能 情况 的 考虑 表明 ,下 一 
个 随机 插入 得 到 M -1 个 这 样 节点 的 概率 为 3M/(2 +1) ,否则 它 得 到 M +1 个 这 
样 的 节点 。 由 此 得 出 结果 。[SICOMP 8 (1979) ,33 一 41; 在 SICOMP 11 (1982 ) ,748 
一 780 中 Kurt Mchlhorn 推广 了 对 于 删除 的 分 析 。 有 关 在 这 样 的 “次 要 分 析 ” 中 最 新 
发 展 的 综述 ,参见 R. A. Baeza-Yates,Computing Surreys 27 (199$) ,109 一 119 ,这 种 
分 析 典 型 地 使 用 在 习题 6.2.4-8 中 说 明 的 方法 。 

12. 当 插入 (12) 的 第 二 个 外 部 节点 时 出 现 极 大 值 ;C=4,Cl=3,D=3,A= C2 
= 下 = G1= Hl V1=1, 总 计 用 132w 的 时 间 。 当 插入 (13) 的 倒数 第 三 个 外 节点 时 
出 现 极 小 值 ;C=2,C1l1= C2=1,D=2, 总 计 用 61w 的 时 间 。[ 程 序 6.2.2T 相应 的 
数字 是 74u 和 26w 。] 

13. 当 树 改变 时 ,仅仅 需要 更 新 O(log NN ) 个 RANK 值 ;“ 简 单 的 "系统 可 能 需要 非 
党 广泛 的 改动 。 

14. 是 。( 但 是 在 表 上 的 典型 的 操作 是 充分 地 非 随 机 的 ,以 致 大 概 将 出 现 退 化 
树 。) 

15. 使 用 算法 6.2.2T, 且 在 步骤 Tl 中 置 m 为 0, 而 且 每 当 在 步骤 TIT2 中 K 过 
KEY(P)H 时 , m<—m +RRNK(P)。 

16. 删 去 E; 执 行情 况 3 在 D 处 重新 平衡 。 删 去 6; 以 6 代 F; 执 行情 况 2 在 HH 处 
重新 平衡 ;在 K 处 调整 平衡 因子 。 
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中 
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18. 





19.( 由 Clark Crane 给 出 的 解 。) 有 一 种 情况 , 它 不 能 由 根 处 的 单 转动 或 双 转 动 
来 处 理 , 即 是 把 


改 成 
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而 后 通过 应 用 在 C 处 的 单 转动 或 双 转 动 重 新 解决 不 平衡 性 。 
2 人 


也 许 最 困难 的 是 在 这 株 的 树 的 最 左边 插入 一 个 新 节点 。 但 K.J. Riihi 和 S.H. 
Zweben 已 经 设计 了 一 个 一 般 的 算法 , 它 花费 O(log N) 步 。LCACM 22 (1979),508 
一 S12 。 ] 

21. 算 法 A 在 阶 为 Niog N 的 步骤 中 作 此 工作 (见习 题 5) ;下列 算法 使 用 一 个 递 
归 方 法 的 有 趣 的 迭代 表达 方案 ,在 O(N) 步 内 建立 同一 些 树 。 我 们 使 用 三 个 辅助 
表 : 

Dj ,...,D: (实际 上 控制 递归 的 一 个 二 进 计数 副 ) 

dy os 

Tj,...,T，【( 指 向 树 的 一 个 指针 表 ) 
这 里 /=「ig(N+1)1。 为 了 方便 起 见 ,这 个 算法 也 置 pbo<1,Jo<J ri<eA。 


G1.[ 初 始 化 ] 置 1<0,Jo<JIi<A,D0<1。 

G2.[ 得 到 下 一 项 目 ] 设 P 指 向 下 一 个 输入 节点 。( 我 们 可 以 调用 为 一 个 共 
子 程序 以 便 得 到 P。) 如 果 已 无 输入 , 则 转 到 G53。 否 则 , 置 <1,Q< 人， a 
Pe 

G3.[ 进 位 ] 如 果 & 有 >i7( 或 者 ,等 价 地 ,如 果 P= 信 ), 则 和 置 1 一 7+1,Di 一 1,Ti 一 
OUssi 0 并 返回 G2。 否则 置 有 交换 OPI ;Pa% 
& 增加 1。 如果 现 在 Di; -1=0, 则 重复 这 一 步 缀 。 

G4.[ 连 接 ] 置 LLINK(P)<T, ,RLINK(P)<-Q,B(P)<-0,Ti<-P, 并 且 返 回 G2。 

G5:[ 完 成 | “对 于 下 故人 迪 LLINK(T 全 RLINK(J: < js BU l= 
D; _ 1, 然后 结束 这 个 算法 ;J 指 同 所 求 树 的 根 。 | 


步骤 G3 被 执行 2N 一 y(N) 次 ,其 中 vy(N) 是 NN 的 二 进 表 示 中 1 的 个 数 。 

22. 具 有 NN 个 内 节点 的 一 株 加 权 平 衡 树 的 高 度 , 总 处 于 lg(N+1) 和 2lg(N+1) 
之 间 。 为 了 达到 这 个 上 限 ,注意 这 个 根 的 较 大 的 子 树 至 多 有 (N +1)N2 个 外 节点 。 

23. (a) 构 造 一 株 树 ,其 右 子 树 是 具有 2” 一 1 个 节点 的 完备 的 二 又 树 , 其 左 子 树 
是 具有 下, ,; -1 个 节点 的 一 株 斐 波 那 契 树 。(b) 构 造 一 株 加 权 平 衡 树 其 右 子 树 大 约 
是 2lg N 级 高 ,其 左 子 树 大 约 是 lg N 级 高 , (参见 习题 22)。 

24. 考 虑 满足 这 个 条 件 但 不 是 完全 平衡 的 最 小 树 。 则 它 的 左 和 右 子 树 是 完全 平 
衡 的 ,所 以 它们 分 别 有 2 和 27 个 外 节点 ,其 中 1 关 r。 但 这 同 所 述 条 件 了 矛盾 。 
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25 .在 树 的 底部 插入 一 个 节点 之 后 ,我 们 从 底 往 上 地 校 验 在 查找 通路 上 每 个 节 
点 处 权 的 平衡 。 假 设 在 已 经 于 右 子 树 中 插入 一 个 新 节点 之 后 ,在 (1) 中 节点 A 处 出 
现 不 平衡 性 ,而 B 和 它 的 子 树 是 加 权 平 衡 的 。 则 一 次 单 转 动 将 恢复 平衡 ,除非 (| a| 
+ 1B1)/| Yl>v2+1, 其 中 |z| 表 示 在 一 个 树 z 中 的 外 节点 数 。 但 在 这 种 情况 下 ,可 
以 证 明 一 个 双 转 动 已 足够 [ 见 SICOMP 2 (1973),33 一 34]。 

27. 有 时 需要 在 包含 两 个 键 码 的 市 点 中 作 两 次 比较 。 在 类 似 于 下 边 那 样 的 一 株 
树 中 ,出现 最 坏 的 情况 , 它 有 时 需要 进行 2 lg(N+2)-2 次 比较 。 





29. 姚 期 智 给 出 的 部 分 解 : 对 于 N 之 6 个 键 码 , 最 低级 将 平均 包含 所 (N+ 1) 个 


单 键 码 节点 和 坟 (N + 1) 个 双 键 码 节点 。 对 于 很 大 的 N 平均 的 总 节点 数 在 0.70N 


和 0.79N 之 间 [Acta Informatica 9 (1978) ,1$9 一 170 ]。 

30. 对 于 最 好 适合 , 按 大 小 次 序 排列 诸 记 录 , 且 以 一 个 任意 的 规则 来 打破 相等 情 
况 ( 参 见习 题 2.5-9)。 对 于 第 一 个 适合 , 按 位 置 次 序 安排 诸 记 录 , 而 且 在 每 个 节点 中 
以 一 个 额外 的 字段 指出 在 以 该 节点 为 根 的 子 树 中 最 大 区 域 的 大 小 。 这 个 额外 的 字 
段 在 插入 和 删 去 之 下 仍 可 保持 。( 尽 管 运行 时 间 是 O(log 2”) ,但 实际 上 大 概 它 仍然 
不 能 胜 过 习题 2.5-6 中 的 “ROVER” 方 法 ;但 没有 ROVER 时 存储 分 配 可 能 更 好 些 ,因为 
在 这 种 情况 下 通常 遇 紧 急 情 况 时 可 有 一 很 大 的 空 区域 供 使 用 ,) 

R.P.Brent,ACM Trans. Prog. Languages and Systems 11 (1989) ,388 一 403 提出 
了 一 个 改进 方法 。 

31 .使 用 一 个 接近 于 平衡 的 树 ,并 对 于 最 左 部 分 附加 向 上 的 链接 , 另 有 一 个 栈 ， 
栈 中 内 容 用 于 沿 着 这 条 通路 作 推 迟 的 平衡 因子 校准 。( 每 个 插入 作 有 限 次 这 样 一 些 
校准 。) 

这 个 问题 可 加 以 推广 ,以 要 求 O(log m ) 步 来 寻找 ,插入 和 /或 删除 在 任何 给 定 
的 “指针 "之 外 mx 步 的 项 ,其 中 一 旦 找到 任何 键 码 , 它 就 可 作为 后 面 操作 的 一 个 “ 指 
针 ”。[ 参 见 S. Huddleston 和 开 . Mehlhorn, Acta Inf. 17 (1982) ,1$7 一 184] 。 

32 .每 一 个 右 转动 使 诸 > 之 一 加 1 而 使 其 它 的 保持 不 变 ; 因 此 x 三 ri 是 必要 
的 。 为 了 证 明 它 是 充分 的 ,假设 对 于 1 三 j<k,r;=7j 但 x < ri。 于 是 存在 一 个 右 
转动 , 它 把 x 增加 成 一 个 三 xi 的 值 ,因为 数 rir,…r, 满足 习题 2.3.3-19(a) 的 条 
件 。 

注 : 由 D.Tamari 于 1951 年 首先 引入 的 这 个 偏 序 ,有 许多 有 趣 的 性 质 。 任 何 两 
柠 树 都 有 由 右 子 树 大 小 min(ri,r1)min(Crz,r2)…min(r ,7r%), 确 定 的 最 大 下 限 
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TAT', 以 及 由 左 子 树 大 小 min(2 ,2 )min(2 2)…min(2 2) 确定 的 最 小 上 限 区 
V 人 。 当 然 左 子 树 大 小 比 算 法 B 和 C 的 RaANK 子 段 小 1。 关 于 进一步 的 信息 ,参见 
H. Friedman 和 D. Tamari,J. Combinatorial Theory 2 (1967) ,21S 一 242 ,4(1968 ) ， 
201;C. Creene ,Europ.J. Combinatorics 9 (1988),225~240; D.D. Sleator, R.E. Tar- 
jan 以 及 W .P.Thurston, J. Amer. Math. Soc. 1 (1988),647~681;]J.M. Pallo, Theo- 
retical Informatics and Applic 27 (1993),341~348; M. K.Bennett 和 G. Birkhoff Al- 
gebra Universalis 32 (1994),115~144;P.H.Edlemn 和 V. Reiner, Mathematika 43 
(1996),127~154。 

33 .首先 ,我们 可 以 在 每 个 节点 PP 中 把 存储 减少 成 一 个 二 进位 的 A(P) ,使 得 每 当 
LLINK(P) 和 RLINK(P) 都 非 空 时 ,B(P) =RACRLINK(P)) -ARACLLINK(P)); 人 否则 B(P) 是 已 
若 的 。 而 且 , 每 当 LLINK(P) 和 RLINK(P) 都 为 空 时 ,可 假定 A(P) =0。 于 是 每 当 A(P) 
=1 时 通过 交换 LLINK(P) 和 RLINK(P), 在 所 有 其 它 节 点 的 A(P) 可 删 去 。KEY(P) 同 
KEY(LLINK(P) ) 或 KEY(RLINK(P)) 的 比较 将 确定 A(P)。 

当然 ,在 指针 总 是 偶数 的 机 器 上 ,在 每 个 节点 上 存在 两 个 无 用 的 二 进位 。 如 同 
在 习题 2.3.1-37 中 那样 ,进一步 的 节省 是 可 能 的 。 


6.2.4 小 市 
1 . 双 节 点 分 开 : 





2. 改 变 的 方 点 : 


a) [wh 
[on | (ep) 
GN LO 

ae] ae] rd 人 ep] ae] [my] cm [wy ag) 

o0 0 OO By OO xd © 八 - A 00 

QQ (ap) nx 二 二 © 让 上 ~- 00 00 
[ef | 的 中 性 Om 
Om 人 mm IDO 人 0 
‘OOV OOO 改作 =- 让 
DCIDC IDD OODDD 


(当然 一 株 B“ 树 没有 非 根 的 3 键 码 节点 ,尽管 图 30 有 这 种 节点 。) 
3.(a) 1+2'50+2.51.50+2.51.51.30=2.51 —1=265301。(b)1+2.50+ 
(2°51:100—100)+ ((2.51:101— 100).:100— 100)= 1013 = 1030301。(c)1+ 
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2.66+(2.67.66+2)+(2.67.67.66+2.67) = 601661。( 小 于 (b) 1 

4. 在 分 开 一 个 非 根 的 节点 之 前 , 先 弄 清楚 : 它 确 有 两 个 已 装 满 的 兄 第 ,然后 才 把 
这 三 个 节点 分 成 为 4 个 。 若 此 节点 是 根 , 则 仪 当 它 有 3L(3 一 3)/4j 个 键 码 以 上 时 
才能 分 开 它 。 

5. 解 释 1, 试 求 所 述 极 小 的 极 大 :450。( 如 果 我 们 有 1005 个 字符 ,而 且 被 传送 给 
父 节点 的 键 码 必须 是 50 个 字符 长 , 则 最 坏 的 情况 就 出 现 了 :445 字符 + 指针 + 5S0 个 
字符 的 键 码 + 指针 + 50 个 字符 的 键 码 + 指针 二 445 字符 。) 

解释 2, 试 使 分 开 之 后 键 码 的 个 数 相 等 ,以 便 保持 高 的 分 支 因 子 :155(15 个 短 的 
键 码 后 边 跟 有 一 些 16 个 字符 长 的 键 码 )。 

关于 进一步 的 评述 ,请 见 E. M. McCreight,CACM 20 (1977) ,670 一 674。 

7. 如果 有 待 删 去 的 键 码 不 在 级 /一 1 上, 则 以 它 的 后 继 者 代替 它 , 并 删 去 这 个 后 
继 者 。 为 了 删 去 在 级 /一 1 上 的 一 个 键 码 ,我们 简单 地 抹 掉 它 ;如 果 这 使 得 节点 太 
空 , 则 就 考察 它 的 右 (或 左 ) 兄 弟 , 并 且 “ 下 溢 ”, 即 ,从 这 个 兄弟 移 进 一 些 键 码 ,使 得 这 
两 个 节点 近似 地 有 相同 的 数据 量 。 这 下 滋 的 操作 仅 当 该 兄弟 的 装 满 程度 为 最 低 时 
才 无 效 ,但 在 该 种 情况 下 两 个 节点 可 以 闭合 成 一 个 ( 同 来 自 它们 的 父 节 点 的 一 个 键 
码 在 一 起 ) ;这样 一 个 七 合 可 能 引起 这 个 父 节点 进一步 下 洪 ,等 等 。 对 于 如 同 在 习题 
5 中 那样 的 可 变 长 的 键 码 , 当 一 个 父 节 点 的 诸 键 码 之 一 变 成 更 长 时 , 它 可 能 需要 分 
开 。 

8. 给 定 有 N 个 内 节点 的 一 个 树 素 并 设 有 她 个 外 节点 , 它 需 要 & 个 访问 , 且 
其 父 节 点 属于 包含 ) 个 键 码 的 一 个 页 ;并 设 A’'(z) 是 对 应 的 生成 函数 。 于 是 
AD(1)+…+AMD(1)= N+1。o( 注 意 , 对 于 1 过 j< M,aM) 是 j+1 的 倍数 。) 下 一 
个 随机 插入 导致 N +1 个 同等 可 能 的 树 ,通过 某 个 系数 <c 妈 ) 减 ) +1 和 加 ;7+2 到 
a “上 ;或 者 (如 果 j 一 MD) 菜 ago 减 1 并 且 加 2 到 a 必 ;上 ,可 得 到 其 生成 函数 。 
现在 BV (z) 是 (N+1) -1! 乘 以 对 于 了 的 生成 函数 A2)(>) 取 遍 所 有 树 9 之 和 ,再 乘 
以 了 出 现 的 概率 ;这 即 得 出 所 述 的 递 推 关 系 。 

递 推 式 有 形式 
(BN(z),…,BNO(z))T7=(T+(ON+ITTIW(Oz))CBNCz) ,BND (z))T = 

= gn(W(z))(0,.…,0,1)7 


其 中 


1 XTX++n+t+l 
= ) 





gn(X) = (1+ rr 十 3) = 7 ， 1 


由 此 得 出 Ch = (1 1)CBO (DB (CD)T=2BNOCGDNN+I+CN 1= 

2fv(W)mm ;其 中 f(x)= g(rT)/(n+1)+ .+go(z)/2= (g(x) 一 1)/z, 而 且 

W= W(1)( 下 标 MM 表示 符 阵 的 右 下 角 元 素 ) 。 现 在 W=S 'diag(X41,…,AM)S， 
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其 中 S 是 某 个 矩阵 ,diag(41,… ,4 ) 表 示 其 元 紊 是 xX(4) 二 (A+2)…(A+M+1)- 
(M+1)! 的 根 的 对 角 和 矩阵 。( 这 些 根 是 不 同 的 ,因为 x(4)= x(X)=0 意味 着 1/ 
(A+2)+…+1/(A4+M+1)=0; 后 者 仅 当 4 是 实数 且 -M-1<A< 一 2 时 才能 
立 , 它 意味 着 | 和 +2|…|A+M+1I<(CM+1)1I 矛盾 。) 如 果 p(xz) 是 任意 多 项 式 , 则 
p(W)=p(S idiag(1 ,AMv)S)=S diag(p(A1),…,p(AM))S; 因 此 p(W) 的 
右 下 角 元 素 有 形式 cip (A1) 二 … 二 cmp (hm), 其 中 ci1,cs,… ,cm 是 某 些 同 p 无 关 的 
常数 。 这 些 常数 可 以 通过 置 p(X) 一 xy(X4)/(X 一 4;) 来 求 值 ; 由 于 对 于 0 三 kM 一 1， 
(W*)mwvx 二 (一 2)*, 我 们 有 p(W)mvw = pC(-2)= (M+1)! /(A;+2)= cp(Ai)= 
cxX (Nh)=c M+TI)! (ICA;+2)+ +1/(N+ M+1)); 因 此 ,c= (G(X;+2) (1 
(Ay+2)+…+1/(X;+ M+1)) 1 。 这 得 出 了 一 个 " 显 式 "公式 CN= 2 12cfy (2;); 
剩 下 只 是 研究 诸 根 *;。 注 意 对 于 所 有 ,|X,+ M+1| 三 M+1, 否 则 我 们 有 |4;+2| 

“|X;+M+1|>(M+1)!, 矛 盾 。 取 X10, 这 意味 着 对 2 三 j 三 M,%R(A;)<0。 由 
等 式 1.2.5-(15), 当 mn 一 吕 时 g(x) 一 (n+1)"/T(zx+2); 因 此 对 于 2 二 jj 二 MM， 
gn (A ) -0 结果 Cw=2c1fn(0)+ O(1)= Hn/(Hxy+1 1)+ O(1)。 

注意 :上 述 分 析 也 与 在 5.2.2 小 节 中 简短 地 讨论 的 “抽样 排序 算法 "有关 。 这 些 

计算 很 容易 推广 以 证 明 对 于 1 三 7 <M,BW(1)~~(Hy41 一 1) -20 +2), 且 
BND(1) 一 (Hm41 一 1) !/2。 因 此 在 未 充满 的 页 上 内 节点 的 总 数 近似 地 为 
(tt tm) 1 = (1 i 





N 


因此 所 用 的 页 的 总 数 近似 地 为 


1 NN NN 
3x2 4X3 (M—-1)xM M+1/Hy:1 -1 2(Hyi1—1) 





并 产生 2(Hy+1 一 1)/M 的 近似 的 存储 利用 。 
这 个 分 析 已 由 Mahmoud 和 ee 10 (1989),52 一 75 |] 作 了 推广 ， 
他 们 发 现 , 存储 利 用 的 方差 经 历 一 个 令 人 惊讶 的 阶段 转换 ， M 达 25 时 方差 为 


B(N); 但 当 M 三 26 时 , 它 渐 近 地 为 FLN)N-1+2e ,其 中 如 果 一 了 +ati 和 一 广 + 


a 一 Bi 是 有 最 大 实 部 的 非 0 根 4, 则 f(ev8N)= 了 (N)。 

LL.Devroye 曾 分 析 了 这 样 的 树 的 高 度 。[Random Structures and Algorithms 1 
(1990) ,191 一 203] ;也 见 B. Pittel, Random Structures and Algorithms 5 (1994),337 
一 347 。 

是 ;例如 ,我 们 可 以 以 i 代替 (1) 中 的 每 个 K; 加 上 在 子 树 Bo,...,P;-1 中 键 码 
的 个 数 。 可 适当 地 修改 查找 ,插入 和 删 去 算法 。 

10. 简 单 的 概述 ,推广 页 方案 ,使 得 在 一 个 时 刻 对 一 个 用 户 赋 予 对 缓冲 区 的 排 它 

访问 ;必须 小 心地 修改 查找 ,插入 和 删 去 算法 使 得 仅仅 对 于 绝对 需要 时 的 一 个 极限 
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时 间 。 这 样 的 排 它 访问 才 被 批准 ,并 且 以 不 出 现 死 锁 这 样 一 种 方式 进行 。 关 于 细 
节 ,请 见 B.Samadi,Inf. Proc. Letters 5 (1976),107~112;R. Bayer 和 M. Schkolnick ， 
Acta Inf. 9 (1977),1~21;Y.Sagiv, J.Comp. Syst. Sci. 33 (1986),275~296。 


6.3 市 


1. 叶 (复数 )。 

2. 利 用 新 的 键 码 作为 变 元 实施 算法 工 ; 它 将 在 步骤 T3 或 T4 中 以 失败 告终 。 如 
果 是 在 T3 中 , 则 只 需 置 NODE(P) 的 表 项 成 为 K 并 终止 此 插 和 人 算法。 否则 置 这 个 
表 项 成 为 一 新 节点 Q 寺 AVAIL 的 地 址 ,该 节点 只 包含 空 的 链接 ,然后 置 P<-Q。 现 在 置 
& 和 分别 成 为 K 和 XX 的 下 一 个 字符 ;如 果 关 k , 则 把 KK 存 人 NODE(P) 的 位 置 & 
处 ,并 把 X 存 人 位 置 & 中 ,但 如 果 有 = 有 , 则 再 一 次 使 & 的 位 置 指 向 一 个 新 节点 一 
AVRAIL , 置 P<-Q ,并且 重 复 这 个 过 程 直 到 最 终 & 天 & 为 止 。( 我 们 必须 假定 没有 一 个 
键 码 是 另 一 个 的 前 绥 。) 

3. 在 键 码 出 现 的 节点 处 ,以 一 个 空 的 链接 来 代替 此 键 码 。 如 果 这 个 节点 现在 成 
了 无 用 的 ,因为 它 除 了 有 一 个 项 是 键 码 X 外 ,其 它 的 所 有 项 都 是 空 的 , 则 删 去 这 个 
节点 ,并 且 以 X 代替 它 父 节点 中 相应 的 指针 。 如 果 父 节点 现在 已 成 为 无 用 , 则 以 同 
样 的 方式 删 去 它 。 

4. 在 压缩 了 的 表 中 ,如果 查 找 是 成 功 的 , 则 情况 和 完全 的 表 是 一 样 的 ,但 如 果 查 
找 是 不 成 功 的 , 则 可 能 要 多 费 重 干 次 另外 的 迭代 。 例 如 ,如 像 TRASH 这 样 的 输入 变 
元 将 使 程序 全 花费 六 次 迭代 (多 于 五 次 !); 这 是 最 坏 的 情况 。 有 必要 验证 ,对 空白 的 
序列 不 可 能 有 无 穷 的 循环 。( 这 个 有 名 的 49 位 压缩 法 是 由 J]. Scot Fishburn 给 出 的 ， 
他 证 明了 48 个 位 置 是 不 够 的 。) 

Kurt Maly, CACM 19 (1976) ,409 一 41$ 已 经 提出 对 于 检索 结构 存储 的 一 个 较 
慢 的 但 有 更 多 种 多 样 节省 的 方法 。 

一 般 来 说 ,如 采 我 们 要 来 压缩 分 别 含 zx1,… ,x 个 非 0 项 的 ”个 稀 玻 表 , 则 用 
同 以 前 放置 的 表 不 相 冲 突 并 以 极 小 数量 x; 补偿 第 7 个 表 的 “最 先 适 配 ” 方 法 ,将 有 
rj 全 (Xi1+… 十 ZX;-1)z;, 因 为 每 个 以 前 的 非 0 项 顶 多 能 封锁 z; 个 偏离 。 对 于 表 1 中 
的 数据 这 最 坏 情 况 估 计 给 出 x 三 93, 并 保证 分 别 含 有 10,5,4,3,3,3,3,3,2,2,2,2 
个 非 0 项 .长度 为 30 的 任何 12 个 表 可 以 压缩 成 93+ 30 个 连续 的 单元 ,而 不 论 非 0 
项 的 模式 如 何 。R.E.Taran 和 姚 期 智 已 经 给 出 对 于 这 个 方法 进一步 的 改进 ,CACM 
22 (1979),606 一 611。 由 下 . M. Liang 给 出 的 压缩 检索 结构 的 一 个 动态 实现 ,用 于 
TrX 打字 系统 的 连 字 表格 中 ;参见 D.E.Knuth,CACM 29 (1986) ,471 一 478;Liter- 
ate Programming (1992) ,206~233。 

5. 在 每 个 族 中 ,通过 从 左 到 右 地 以 概率 递减 的 次 序 排列 字母 ,首先 测试 最 可 能 
的 结果 。 这 排列 的 最 优 性 可 以 如 同 在 定理 6.1S 中 那样 证 明 。[ 参 考 CACM 12 


* 树 (tree) 的 叶 为 leaf, 因 此 检索 结构 (trie) 的 叶 为 Lief。 前 者 复数 为 Leaves, 后 者 复数 为 Lieves。 
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(1969) ,72 一 76。| 
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7. 例 如 ,8,4,1,2,3,5,6,7,12,9,10,11,13,14,15。( 不 管 使 用 什么 序列 , 左 子 
树 在 级 4 上 不 能 包含 多 于 两 个 节点 , 右 子 树 也 不 能 。) 其 至 这 株 “ 最 坏 ” 的 树 也 是 在 最 
好 的 四 株 树 之 内 ,所 以 我 们 看 到 ,数字 查找 树 对 于 插入 次 序 不 是 非常 敏感 。 

8. 是 。KEY 字段 现在 仅仅 包含 一 个 截断 了 的 键 码 ;由 节点 位 置 所 冀 涵 的 诸 前 导 
二 进位 被 砍 掉 了 。( 算 法 工 的 一 项 类 似 的 修改 是 可 能 的 。) 


9 . 

START LDX K 
LD1 ROOT 
JMP 2F 


1 
1 
1 


D1. 初 妈 化 。(rX 三 K) 
P<-ROOT(rIl1 寺 PP) 
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4H LD2 0,1(RLINK) C2 D4. 右 移 , Q<-RLINK(P) 
J22 5F C2 ”如果 8Q= A, 则 移 到 D5 
1H ENT1 0,2 C-1 P<Q 
2H CMPX 1,1 C D2. 比 攀 
JE SUCCESS C 如 果 K = KEY(P), 则 转 出 
SLB 1 C-S 把 KK 左 移 一 个 二 进位 
JAO 4B C-S 如 果 移 掉 的 二 进位 是 1, 则 转 到 D4 
LD2 0,1(LLINK) Cl ”D3. 左 移 。Q<-LLINK(P) 
J2NZ 1B C1 如 果 Q 关 A, 则 以 P<-Q 转 到 D2 


5H 如 同 在 程序 6.2.2T 中 那样 继续 ,并 交换 rA 和 +rX 的 作用 。 | 


文 个 程序 查找 阶段 的 运行 时 间 是 (10C -3S+4)w, 其 中 C-S 是 二 进位 探查 
的 数目 。 因 此 ,对 于 随机 数据 ,近似 的 平均 运行 时 间 是 


成 功 的 不 成 功 的 
程序 6.2.2T 15lnN — 12.34 15InN — 2.34 
这 个 程序 14.4InN -6.17 14.4lnN+1.26 


(因此 ,除非 N 非常 大 ; i 2.2T 要 稍 许 快 些 。) 

10. 设 由 表示 对 于 2” 个 二 进位 数 的 异 或 操作 ,而且 设 ACz)=72 -lg(Cz+1l) |， 
是 过 的 前 导 0 位 的 个 数 。 一 种 解法 :(b) 如 果 算 法 工 执 行 的 一 个 查找 在 步骤 T3 处 
以 失败 告终 , 则 K 比 至 今 所 作 的 二 进位 探查 数 小 1; 否 则 如 果 查 找 在 步骤 T4 处 结 
束 , 则 有 = fA(KDX)。(a,c) 做 正规 的 查找 ,但 是 也 要 随时 记 住 相对 于 在 查找 过 程 
中 与 K 作 过 比较 的 所 有 KEY(P) ,KKEY(P) 的 极 小 值 zx。 于 是 &= f(x)。( 证 明 , 和 
K 比较 过 的 键 码 与 K 相同 的 二 进位 个 数 , 比 没有 同 K 比较 过 的 其 它 键 码 为 多 。 在 情 
况 (a) 中 , 极 大 的 & 值 或 者 对 于 三 K 的 最 大 键 码 ,或 者 对 于 K 的 最 小 键 码 出 现 。) 

11. 否 ;消去 只 有 一 个 空子 树 的 一 个 节点 会 “起 掉 ” 在 非 空 i 个 二 
进位 。 为 删 去 一 个 节点 ,应 该 以 它 的 终端 后 代 之 一 代 蔡 它 , 比 如 说 ,只 要 可 能 时 通过 
向 右 查找 来 实现 。 

12. 把 在 0 和 1 之 间 的 三 个 随机 数 c ,8,y 插入 到 开始 时 为 空 的 一 株 树 中 ;然后 
使 用 前 面 答案 中 所 建议 的 算法 ,以 概率 p 删 去 a ,以 概率 g 删 去 8, 以 概率 > 删 去 y， 


则 我 们 以 概率 二 十 3q 十 57 得 到 树 


而 且 仅 当 p=0 时 ,这 概率 是 了。 


13. 对 每 个 节点 加 一 个 KEY 字段 ,而 且 在 考察 步骤 T2 的 癌 量 元 素 之 前 把 KK 同 
这 个 键 码 加 以 比较 。 表 1 将 改变 如 下 :市 点 (1),…,(12) 将 分 别 包 含 键 码 THE,AND， 
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BE FOR,HIS,IN,OF,TO,WITH,HAVE,HE,THAT( 如 果 我 们 按 频 率 递 减 的 次 序 插入 它们 
的 话 ) ,而 且 这 些 键 码 将 从 它们 以 前 的 位 置 中 被 删 去 。[ 对 应 的 程序 在 这 种 情况 下 将 
比 程序 工 更 慢 和 更 复杂 。 算 法 DD 的 一 个 更 直接 的 M 进 推广 将 建立 具有 N 个 市 所 
的 一 株 树 ,每 个 节点 有 一 个 键 码 和 M 个 链接 ]。 

14. 如 果 jj 迄 ”, 则 仅 有 一 个 位 置 , 即 KEY(P)。 但 是 如 果 7] >72 , 则 通过 遍历 丰 点 了 
的 子 树 找 出 所 有 出 现 的 集合 :如 果 有 个 出 现 , 则 这 株 子 树 包 含 r 一 1 个 市 点 (包括 
节点 P 了 在 内 ), 而 且 因 此 它 有 TAG=1 的 7 个 链接 字段 的 ;这 些 链接 字段 都 指 疝 访问 
和 匹配 的 TEXT 的 位 置 的 所 有 节点 (完全 不 必 再 检验 TEXT 了 )。 

15 .为 开始 形成 这 株 树 , 置 KEY (HEAD) 成 为 第 一 个 TEXT 访问 ,而 且 置 LLINK 
(HEAD)<-HEAD,LTAG(HEAD)<-1。 用 下 列 插 入 算法 把 其 余 的 TEXT 访问 记 入 树 中 。 

置 K 成 为 我 们 希望 记 入 的 新 键 码 。( 这 是 插入 算法 所 作 的 对 于 TEXT 阵列 的 第 
一 次 访问 )。 实 施 算法 P; 它 必然 以 失败 告终 ,因为 不 允许 一 个 键 码 是 男 外 键 码 的 一 

个 前 缀 。( 步 又 P6 作对 于 TEXT 的 第 二 次 访问 ;不 再 需要 更 多 的 访问 了 1!) 现 在 假设 

在 步骤 P6 中 找到 的 键 码 同 变 元 K 在 前 7 个 二 进位 中 一 致 ,但 是 在 第 1 +1 个 位 置 却 
不 同 , 在 KK 中 是 数字 2 而 在 键 码 中 是 1 -5。( 尽 管 算法 P 中 的 查找 可 能 要 使 7 比 / 
大 得 多 ,但 可 以 证 明 , 这 里 所 确定 的 过 程 将 在 K 和 现存 的 任何 键 码 之 间 求 得 最 长 的 
匹配 。 于 是 ,以 的 前 7 位 开始 的 正文 的 所 有 键 码 ,都 有 1 一 5 作为 它 的 第 1+1 位 
二 进位 ,) 现 在 重复 算法 PP 并且 以 这 些 / 个 前 导 二 进位 代替 天 ( 即 n 一 1)。 这 次 查找 
将 是 成 功 的 ,所 以 我 们 不 必 实 施 步 又 P6。 现 在 置 R=AVAIL,KEY(R)<-TEXT 中 新 键 码 
的 位 置 。 如 果 LLINK(Q) =P, 则 置 LLINK(Q)<R,ti<LTRAG(Q) ,LTAG(Q)< 0; 人 否则 置 
RLINK(Q)<-R,1<-RTAG(Q),RTAG(0)<-0。 如 果 5 = 二 0, 置 LTAG(R) 一 1,LLINK(R) 一 R， 
RTAG(R)<-t ,RLINK(R)<-P; 否 则 置 RTAG(R)<—1,RLINK(R)<—R,LTAG(R)<-t,LLINK(R) 
<-P。 如 果 z==1, 则 和 置 SKIP(R)<-1+ 7 一 j; 否 则 置 SKIP(R)<-1+7 一 j++ SKIP(P) 和 
SKIP(P)<—)—/—1。 

16. 树 的 建立 恰恰 需要 从 下 边 的 一 个 节点 到 该 节点 的 一 条 虚线 的 链接 ; 它 来 目 
树 的 一 个 部 分 ,在 这 部 分 中 此 键 码 第 一 次 不 同 于 所 有 其 它 键 码 。 如 果树 中 没有 这 样 
的 部 分 , 则 这 些 算法 失败 。 我 们 可 以 简单 地 去 掉 作 为 其 它 键 码 的 前 缀 的 键 码 ,但 那 
样 的 话 习题 14 的 算法 将 没有 足够 的 数据 来 找 出 这 个 变 元 的 所 有 出 现 。 

17. 如 果 我 们 定义 ao=ai=0, 则 

= ot DI) Dom DD) = DD) Dram me! 


18. 为 了 解 (4) ,我 们 需要 w =[2>1], 即 a=[a=0j-1+723 因 此 对 于 六 之 
2 ,我 们 得 到 ANw=1- UN + VN, 这 里 用 的 是 习题 19 的 记号 ,其 中 UN= 开 (CN,0,MI) 
和 VN= K(N,1,M)。 类 似 地 ,为 了 解 (5), 取 4a,==n 一 Ln=1]=a;, 而 且 对 于 NN 过 
2 ,得 到 CNy 二 N+ VN。o 





19. 对 于 s=1, 我 们 有 V, = K(n,l1l,m)==n(ln 7 十 yinm -3 60(n—1)) 
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+ O(1), 而 且 , 对 于 s 宇 2, 我 们 有 
K(n,s,m)=(-1)n(l/lnm+6._1(n—s))/s(s—-1)+O(1) 
其 中 


0,(n) = SRT — 2rxik/ln m )exp(2riklog,n )) 
是 logn 的 一 个 周期 函数 。[ 在 这 个 推导 中 我 们 有 


一 5 十 1 


K(n+s,s,m)/(— 1):(” "|= ce T(z)n “dz + O(n ’) 


2Trl 1/2 一 ioco 1125 1-? 一 工 
对 于 小 的 m 和 ;s, 诸 6 小 得 可 以 忽略 ;参见 习题 5.2.2 -46。 注 意 , 对 于 固定 的 w， 
6,(n—-a)=6,(n)+O(n ')]。 

20. 对 于 (a), 令 a,=[n>s]=1- 2%_oLn= 二 kj]; 对 于 (b), 令 a,=n-2_ok[n= 


kj; 对 于 (c) ,我 们 要 解 递 推 式 


mm 对 于 >， 
Yn 一 


站 os 


置 x, = y, 一 n 得 出 习题 17 形式 的 递 推 式 , 且 
a = (1-— MD) (> rn = 上] 
因此 ,在 前 边 习题 的 记号 下 ,答案 是 (a) 1- 开 (N,0,M)+ 开 (N,1,M) 一 … 十 


(—1)° IK(N,s,M)= N/(slnM)— N(6_(N)+O0(N-1)+6O(N -2)/2:1+…: 
+6 1(N-—s)/s(s -1))+O(D;b) NIC(N+t KN,1, M) -2K(N,2,M) + 
F(T IKRCON,s, M))= (nN+ 7 -Hn Mt- (80(N-1)+O(N- 
2)/1+…+G_ 1(N-s)/(s—-1))+O(N (CN (N+(1—- MY (一 1) 
DJjKCONE MD=1+ 二 -MD(GG-Dh M+piIC(N-2)+…+G9_ ICN-- 
S))+O(N- )。 
21. 设 共有 AN 个 节点 。 非 空 指针 的 个 数 是 An 一 1, 而 且 非 指针 的 个 数 是 NN , 因 
此 空 指针 的 总 数 是 MAN 一 An+1 一 N。 除 以 m, 即 得 它们 在 任何 固定 位 置 中 空 指 
针 的 平均 值 。[ Aw 的 平均 值 出 现 于 习题 20(a) 中 。] 
22. 对 于 M: 个 前 导 二 进位 序列 中 的 每 一 个 ,存在 一 个 节点 使 得 至 少 两 个 键 码 
有 这 个 二 进位 型 。 由 于 恰恰 & 个 键 码 有 一 个 特定 的 二 进位 形式 的 概率 是 
N 一 大 加 -INN-k 
NE 
所 以 在 1 级 上 检索 结构 的 平均 节点 数 是 M(1-(1- MT 六 )--NI- MO > 1。 
23 .更 一 般 地 说 ,考虑 如 同 习题 20 中 那样 任意 :的 情况 。 如 果 有 aj 个 节点 在 
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级 7/ 上 , 则 它们 包含 aj+1 个 链接 以 及 Ma, 加 zj+ 1 个 位 置 ,在 这 些 位 置 上 查找 可 能 是 
不 成 功 的 。 数 字 探 查 的 平均 数 因此 将 是 so(l+1)M (Ma -ari)= 21>0 
M ‘a,。 把 w 的 这 一 公式 使 用 于 一 随机 检索 结构 中 , 它 等 于 

上 K(N+1,1,M)—2K(N+1,2,M)+…+(—-1)(s+1)K(N+1,s+1,M) 


N+1 
InN+7Y-H 1 O(N-1) O(N 一 >) 1 
= + -60(N) -一 了 一 < + O(N ) 


24 .我 们 必须 解 递 推 式 zco= zi=yo=yi=0, 对 于 也 字 2， 


了 
?1 7 1， 


9 m 1 委 7 科 7 


"tm Dh 
k 


其 中 ,a,==m(1 一 (1 一 1/m)”) 和 6, = 2 ("Ds (1 一 (1 一 1/m)”“)。 由 习题 17 
和 18, 答 案 是 (a) XN 二 N+ VN 一 -[N=1ll=ANw+N=-1l( 这 是 可 以 直接 得 到 的 
一 个 结果 ,因为 在 森 订 中 的 节点 个 比 在 相应 的 检索 结构 中 的 节点 个 数 多 N 1 
个 0D); 而 (b) sw/IN= 二 GOM-DVNN= 寺 (M-DGnN+7)nM- 


2 
1))+O(N ), 
25.(a) 设 Av=M(N--1)/(M 一 1) En; 于 是 对 于 N 之 2, 我 们 有 (1-M' ) 


— 60(N-— 


Ev=m-1- MOQ-UM)N + M NDocen(» J(M- DNF,. 由 于 M - 1 之 
M(1-LM)N 1, 由 归纳 法 ,我 们 有 Ev 宇 0。(b) 由 定理 1.2.7A 连同 x=1/(M-1) 
和 n=N 一 1, 我 们 求 得 Dy=an+ MI ND (CM 一 DN Di, 其 中 a1=0, 且 对 
于 N 宕 2,0<av<M(1-1/M)MIn M 和 过 (M-1) /Mn M。 因 此 ,0 夺 Dy 三 (M- 
1)°Av/MIn M<(M-1)(N-1)/ln M。 

26. 在 习题 5.1.1-16 的 第 二 个 恒等式 中 取 4 = ,= 一 ,我 们 得 到 1/3 — 


11(3.7)+11(3:7.15) - …= 0.28879; 若 使 用 z= -地 和 取 这 个 结果 的 一 半 则 要 稍 

快 些 。 或 者 ,可 以 使 用 来 自习 题 $S.1.1- 14 的 欧 拉 公 式 , 它 仅 涉及 2 的 负 的 次 贤 。 

(John Wrench 计算 了 40 位 的 值 即 0.2887880950 86602 42127 88997 21929 23078 
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oA 





00889+ 。) 
27.( 为 了 开心 ,下 列 推导 进行 到 O(CN-)。) 在 习题 $5.2.2-38 和 3S.2.2-48 
的 记号 下 ,我 们 有 


= YN+1 
Cn=UntN-1l1+Nyri-oN-B+ 


1l-n\Vm -myN 
ea 
8 之 2 [| _ -27) 





其 中 
a =2/(1 1)—4/(3.3.1)+8/(7.7.3.1)-16/(15.15.7.3.1)+. 2 

1.60669 51524 15291 76378 33015 23190 92458 04806 -— 
以 及 B= 二 2/(1:3:1) 一 4/(37.3:1)+8(7.157.3.1) 一 … 守 0.60670。 这 个 数值 计算 
提示 a = B+1, 这 是 不 难 证 明 的 一 个 事实 而 且 ,a 原来 竟 和 在 5.2.3-(19) 中 十 分 不 
同 地 定义 的 常数 相同 ;参见 Karl Dilcher ,Disc. Math. 14$ (1995),83~93。 由 习题 
5.2.2-46, mz0(2 “)”(1 一 2 ”) 人 六 的 值 是 O(N!"); Vyy/(N+1)= UN 一 
Un。 因此 由 习题 5.2.2-50,CNy= Un+ti-(a-1)N-a+O(N 1)=(N+1)lg(N 
TD+N(Y -Dn2+3 ato i(N) + -lin4- edo(N) + O(N!), 

Kirschenhofer, Prodinger 和 Szpankowski,SICOMP 23 (1994) ,398 一 616 计算 了 
一 个 数字 查找 树 的 内 部 路 径 长 度 的 方差 。 

28. 如果 我 们 在 显然 的 位 置 中 以 M 替换 2, 则 正文 中 和 习题 27 中 的 推导 可 应 用 
于 一 般 的 M 宇 2。 因 此 在 一 次 随机 的 成 功 查 找 中 平均 的 数字 探查 次 数 是 C/N = 
Un av t 1+ O(N )=logw NT (7y- /nn M+ 让 ~ av +t O(N)t+ 
(logM N)/N+ O(N ); 而 且 对 于 不 成 功 的 情况 它 是 CN+1 - CN= VN+2/(N+2) 和 
am +l1+ O(N-!) = logu N+ y/ln M+ QM Oo0(N+ 1) 十 O(N 1), 这 里 6 (7 ) 
在 题 19 中 定义 ,而 av = > (YMCMTT-1)Y (M1).…(M-1)。 

29. Flajolet 和 Sedgewick [SICOMP 15 (1986) ,748 一 767] 证 明了 , 当 M=2 时 
这 样 节点 的 近似 平均 个 数 是 .372N ,而 当 M = 16 时 是 .689N。 也 请 参见 Flajolet 和 
Richmond 的 推广 ,Random Structures and Algorithms 3 (1992) ,30S$ 一 320 。 

30. 通 过 迭代 递 推 式 ,h, (zx) 是 形 如 


n 之 pl 之 之 pm i 
(p(x 一 i ) (去 —1 25 一 nl 1 )， 对 于 n> Pl> > pn >1, 
的 所 有 可 能 的 项 之 和 。 
31.A (1)= V,。 参 见习 题 5.2.2-36(b)。|[ 关 于 Patricia 树 的 M 又 推 广 的 方差 
和 极限 分 布 ,参见 P. Kirschenhofer 和 H. Prodinger, Lecture Notes in Comp. Sci. 226 











712 : 


6.3 节 


〈1986) ,177 一 18$; W. Szpankowski,JACM 37 (1990) ,691 一 711 ; B. Rais, P. Jacquet 
和 W .Szpankowski,SIAM J. Discrete Math 6 (1993) ,197 一 213 。] 

32. SKIP 字段 之 和 是 在 对 应 的 二 进 检索 结构 中 的 节点 数 ,所 以 管 案 是 AN (参见 
习题 20)。 

33.(18) 是 这 样 发 现 的 :A(2z)-24A(z)=ez -2er+1+A(z)(es-1) 可 以 被 
变换 成 为 A(2z)/(e* -1)=(e* -1)/(e +1)+ A(z)/(e* -1)。 因 此 A(z)=(e*- 
1) si1 (ee 一 1)/(e”? +1)。 现 在 如 果 f(z)= cx, 则 Ds f(z/27) = 
2cnz”"(2" 一 1)。 在 这 种 情况 下 f(z)=(e* 一 1)/(e* +1)= tanh(z/2), 它 等 于 1- 
2z (z/(e*—1)-2z/(e*—1))= ,Biz (2771 -1)/(n+1)!。 从 这 个 公式 
出 发 ,下 一 步 该 怎么 走 就 清楚 了 。 


34.(a) 考 虑 2 ;>1 (B12; 由 习题 1.2.11.2—4,1* 1+.+(m-— 


1)” =(B(m)—B,)/n。(b) 设 S,(m)= Yt(l-k/m)”* 和 T,(m)=1/(e"/” 
一 1)。 如 果 有 < m/2, 我 们 有 e tim > exp(nln(1 — klm))>exp(— kn/m — kn/ 
m2) >e-*/m(1 &21722) ,因此 (1 加 k/m )” 一 ekn/m 十 O(e 如/mmR2721722)。 由 于 
Si(m)= II-k/m)"+O(2 7*) 和 Tm)= De m+ O(e 2) ,因此 我 
们 有 S,(m)=T,(m)+O(e "”n/m?)。O(exp( 一 n/2i)n/23) 之 和 是 O(n-!)， 
因为 对 于 j 三 lgn 这 个 和 有 n 1'(1+2/e+ (2/e)?*+…) 的 阶 , 而 对 于 j 宇 lgn 这 个 和 有 
n (1+1/4+(1/4)*+…) 的 阶 。(c) 当 |z|<2x 时 和 在 5.2.2 小 节 一 样 进行 论证 ， 


然后 使 用 解析 的 连续 性 。(d)]g(n/z) + 7Y/(2In 2) -了 + 8(a)+2/7 ,其 中 


Cn) =(2/n2) >, 
(1/ln 2) 2 ,RN(S(l + 2rik/ln 2)exp(2xiklg(n/x)))/cos h(wk/ln 2) 


W .Szpankowski, JACM 37 (1990) ,691 一 771 计算 了 方差 和 更 高 的 矩 量 。 

35. 诸 键 码 必须 是 |a0B0wi,a0Blw,alyY0w3,aly160w4,al7y161ws| ,其 中 a ， 
8,… 古 0 和 1 的 串 且 有 |xcj=a-l,18|=20-1, 等 等 。 五 个 随机 键 码 有 这 个 形式 的 
概率 是 51 2° 2041222270+a+c+atrc+ratrarc+d 一 9 /12242727+2c+d+4 

36. 放 有 7 个 内 市 点 。(a)(2a1 /21(1/s(z))=n! TOU232 1s(0z)) ,其 中 
1 是 此 树 的 内 部 路 径 长 度 。(b) ((z +1)1 127)TI(GU(C22 -1))。( 考 虑 对 于 所 有 
的 a ,b,c,d 之 1 来 对 习题 35 的 答案 求 和 。) 

37. 最 小 的 修改 了 的 外 部 路 径 长 度 实际 上 是 2-1/2N ,而 且 它 仅 出 现在 一 株 退 
化 的 树 ( 其 外 部 路 径 长 度 为 极 大 者 ) 中 。[ 可 以 证 明 , 最 大 的 修改 了 的 外 部 路 径 长 度 
出 现 的 条 件 是 当 且 仅 当 外 节点 出 现在 至 多 两 个 相 邻 的 级 上 ! 但 是 如 果 说 凡是 其 外 
部 路 径 长 度 小 于 另 一 株 树 的 外 部 路 径 长 度 者 ,一定 有 一 个 更 大 的 修改 了 的 外 部 路 径 
长 度 ,这 一 点 就 不 见得 总 是 正确 的 了 。 


CS(- 2xik/ln 2)T(- 2rik/ln 2)exp(2ri&lg n)) = 
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38 .把 求 具有 参数 (u ,8)， [8 (Ce 24 由 的 那些 & 节点 的 树 看 作 是 一 


些 子 问题 。 

39. 见 Miyakawa, Yuba,Sugito 及 Hoshi Mamoru,SICOMP 6 (1977),201~234。 

40. 设 N/r 是 这 个 序列 的 真 的 周期 长 度 。 构 造 一 株 Patricia 类 型 的 树 , 以 
aoa1…“ 作 为 TEXT, 且 有 从 位 置 0,1,…,N/r 一 1 处 开始 的 Nfr 个 键 码 。 
键 码 是 另 一 个 的 前 缀 ,这 是 由 于 我 们 对 > 的 选择 所 致 。) 在 每 个 节点 中 还 包括 一 
SIZE 字段 ,该 字段 包含 在 此 节点 下 面 的 子 树 中 带 标 志 的 链接 字段 的 数目 。 为 做 此 特 
定 的 操作 ,使 用 算法 P; 如 果 这 次 查找 是 不 成 功 的 , 则 答案 为 0, 但 如 果 它 是 成 功 的 ， 
而 且 7 委 ”, 则 答案 为 >。 最 后 ,如果 它 是 成 功 的 ,而 且 7>7?2 , 则 答案 为 >" SIZE(P)。 

43 .预期 的 高 度 近似 于 (1+1/)logw N ,而 方差 为 O(1)。 参 见 H. Mendelson ， 
IEEE Transactions SE ~ 8(1982),611~619;P. Flajolet, Acta. Informatica 20 (1983 ) ， 
345~369;L. Devroye, Acta Informatica 21 (1984),229~237;B. Pittél,Advancedsin 
Applied Probability ,18 (1986),139~155;W.:Szpankowski Algorithmica 6 (1991), 
256~277。 

具有 M =2 的 一 个 随机 数字 查找 树 的 平均 高 度 是 近似 于 lg n + v2lgnlAldous 
和 Shields, Probability Theory and Related Fields 79 (1988) ,509 一 3542 | ,而 且 对 于 一 
个 随机 Patricia 树 同 样 的 结论 成 立 。[Pittel 和 Rubin,Journal of Combinatorial Theo- 
ry ASS (1990) ,292 一 312 。| 

44. 参 见 SODA 3 (1997) ,360 一 369; 这 个 查找 结构 同 在 习题 5.2.2-30 的 答案 中 
讨论 的 多 重 键 人 码 快 速 排序 算法 密 切 有 天。J.Clément,P. Flajolet 和 B. Vallée 已 经 证 
明 ,三 又 表示 使 检索 结构 查找 大 约 比 (2) 的 二 又 表示 快 三 倍 ,相对 于 访问 的 节点 而 言 
[参见 SODA 9 (1998) ,531 一 539 。] 

45.{THAT, THE, THIS| 在 |BUILT, HOUSE, IS, JACK| 之 前 , 1HOUSE, IS, JACK| 在 
1BUILT| 之 前 ,1HOUSE,ISI 在 {JACK| 之 前 ,1IS} 在 {HOUSE| 之 前 ,1THIS| 在 {THAT,THE| 


、， ~ 3 3 1 1 1 
， | » 深 卢 .一 。~。 一 -一 一 一 一 一 一 一 一 
之 前 ,以 及 1THE| 在 1THATI| 之 前 的 概率 是 广 73"7 = 6° 


WI 


6.4 市 


1. 一 37 志 tI1 志 46。 因 此 在 TABLE 之 前 和 之 后 的 单元 必须 保证 不 包含 同 任何 给 
定 的 变 元 相 匹 配 的 数据 。 例 如 ,它们 的 第 一 个 字 节 可 以 为 0, 在 这 个 范围 内 存储 KK 
肯定 是 坏 的 ! [因此 ,在 某 种 意义 下 ,我 们 可 以 说 ,习题 6.3 一 4 中 的 方法 使 用 较 少 的 
空间 ,因为 该 表 的 边界 决 不 被 超过 。] 
2.TOW。[ 读 者 能 否 找 到 至 多 5 个 字母 的 十 个 “常用 的 " 字 , 填 满 -10 和 30 之 间 
所 有 剩 下 的 间隔 ?] 
3. 字 符 代 码 A+T=I+N 和 B-E=0-R, 所 以 我 们 有 FaT) = f(IN 或 f(BE) = 
F(oOR)。 注 意 表 1 的 指令 4 和 5 相当 好 地 解决 了 这 个 问题 ,同时 保持 rIl 没有 太 宽 的 
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范围 。 

4. 考 虑 具有 有 & 个 对 的 情况 ,使 得 对 于 m = 365 

_ m nC—k\ 1 
CD 


k 


最 小 的 n 是 88。 如 果 你 邀请 88 人 (包括 你 自己 在 内 ), 则 生日 试验 的 机 会 古 . 
511065 ,但 如 果 来 了 87 人 , 则 它 就 降低 到 .499455。 参 见 C.F. Pinzka, AMM 67 
(1960)830。 

5. 散 列 函 数 是 坏 的 ,因为 它 假定 顶 多 有 26 个 不 同 的 值 ,而 且 它 们 中 的 某 些 要 比 
其 它 的 那些 更 经 常 地 出 现 。 甚 至 对 于 双重 散 列 (比如 说 设 h,(K)=1 加 上 的 第 
二 个 字 节 ,而 且 比如 说 ,M = 101) ,查找 所 减 慢 的 时 间 将 超过 由 更 快 的 散 列 而 市 省 的 
时 间 。 还 有 M = 100 太 小 ,因为 FORTRAN 程序 通常 都 有 多 于 100 个 不 同 的 变量 。 

6. 在 MIX 上 不 行 ,因为 算术 溢出 几乎 总 出 现 (被 除数 太 大 )。[ 最 好 能 计算 (wk ) 
mod M ,特别 是 如 果 线 性 探查 以 c=1 被 使 用 时 ,但 不 幸 的 是 大 多 数 计 算 机 都 不 允许 
这 一 点 ,因为 商 溢 出 了 。| 

7. 如 果 R(z) 是 P(z) 的 一 个 倍 式 , 则 对 于 所 有 的 jES,R(w)=0 在 GF(2”) 
中 。 设 R(z)= za+…+xzc ,其 中 a1>>…>a, 宇 0 且 ;二 1, 并且 选 择 1 一 ;个 进 一 
步 的 值 a,;;,… ,a ,使 得 a1,…,a, 是 小 于 nn 的 不 同 的 非 负 整 数 ,Vandermonde 矩阵 


[2 [2 
人 1 ”CQ 
2a 2a 
Q l1°***oQ t 
ia tia 
Q l1°***oQ t 


是 奇异 的 ,因为 它 的 前 ; 个 列 之 和 为 0。 但 这 同 oe:, ,oa“: 是 GF(2*) 的 不 同 元 素 这 
一 事实 矛盾 。( 见 习题 1.2.3 一 37。) 

[多 项 式 散 列 的 思想 由 M. Hanan,S. Muroga,F.P.Palermo,N. Raver 及 G.Schay 
所 首创 ; 见 IBM J. Research&Development 7 (1963),121~129;U.S. Patent 3311888 
(1967) 。 

8 .由 归纳 法 。 强 归纳 假设 可 通过 对 于 0 三 r 三 aj, 1( 一 1)*(rg+ ge-1)0|1= 
(一 1)*(r(gi0 一 pi)+ (gi_19 一 pi-1)) 这 一 事实 而 得 到 补充 。 对 于 n= qi1,4q2+ qi， 
2gy+ qi,a292+ qi1 二 0g4t+q3,44+ gq3,…,44494+q3=0gqe+ qs，,… 出 现 |n914 的 
“ 创 记录 地 低 ” 的 值 ; 对 于 1 二 900，91 十 90，…，0191 十 90 三 093 十 g2 ,… 出 现 “ 创 记录 地 
高 ”的 值 。 这 些 是 当 形 成 一 个 具有 新 的 长 度 编号 为 0 的 区 间 时 的 一 些 步骤 。|[ 进 一 
步 的 结构 可 以 通过 推广 习题 1.2.8 一 34 的 斐 波 那 契 数 系 而 推演 出 来 ;参见 L.H. 
Ramshaw, J. Number Theory 13 (1981),138~ 17S 。| 

9. 我 们 有 $1= /1,1,1,…/ 和 $$ “= /2,1,1,…//。 设 在 习题 8 的 记 写 下 0 
三 /ail,Q2，"…// 和 G4=//arrisag+2，""// ,以 及 Q = qe t+ qa-10k-20 如 时 al 之 之， 
则 第 一 次 分 割 是 坏 的 。 习 题 8 中 的 三 个 区 间 大 小 分 别 是 (1- r 和 -AQ -1Q 和 
(1 一 (rr 一 1)0,_1)/Qi;, 所 以 第 一 个 长 度 对 于 第 二 个 的 比率 是 (ai 一 r)+9。 当 r= 
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CR 和 w+1 之 2 时 ,这 这 将 小 于 二 ; 因此， 如 果 我 们 不 希望 有 坏 的 分 割 ， 则 {a,， C3,° …| 必 


须 都 等 于 1。[ 关 于 有 关 的 定理 ,参考 R.L. Graham 和 J].H. van Lint, Canadian J. 
Math. 20 (1968),1020 一 1024, 以 及 那里 所 引 的 参考 文献 。] 

10. 见 下 , M.Liang 在 Discrete Math. 28 (1979),325 一 326 中 漂亮 的 证 明 。 

11. 如 采 =0, 则 将 是 有 问题 的 。 如 果 要 求 键 码 如 同 在 程序 L 中 那样 是 非 0 
的 , 则 这 个 变化 将 是 值得 的 ,而 且 我 们 也 可 以 用 0 表示 空位 置 。 

12 .我们 可 以 把 天 存 于 KEY[0] 中 ,用 下 列 诸 行 代替 行 14 一 19: 


STA TABLE(KEY ) A—Sl 
CMPA TABLE ,2( KEY ) A 人 -9Sl 
JE 3F A-—Sl 
2H ENT1 0,2 C—-1—S2 
LD2 TABLE , 1 (LINK) C—-1—S2 
CMPA TABLE ,2(KEY) C—-1-—S2 
J NE 2B C—-1—S2 
3H J22 SF A—Sl 
ENT1 0 ,2 S2 
JMP SUCCESS S2 | 


“节省 "的 时 间 是 C1-5A+ S+4S1 个 单位 , 它 实际 上 是 一 项 纯粹 的 损失 ,因为 C 
很 少 大 于 5。( 一 个 内 部 循环 并 不 总 是 优化 的 !) 


13. 如同 在 算法 C 中 那样 , 设 表格 的 每 个 表 项 中 有 两 个 可 加 区 分 的 类 型 ,是 有 一 
个 附加 的 二 进位 TAG[ ;字段 。 这 个 解决 办 法 使 用 循环 表 , 并 遵循 Allen Newell 的 建 
以 ,在 每 个 表 的 第 一 个 字 中 有 TAG[i]=1。 
Al1.[ 初 始 化 ] 置 i<—j<-h(K)+1,Q<g(K)。 
A2.|[ 是 否 有 一 个 表 ?] 如 果 TaABLE[z] 是 空 的 , 则 置 TAG[i1]<-1 而 且 转 到 A8。 
否则 如 有 果 TAGLi]=0, 则 转 到 A7。 
A3.[ 比 较 ] 如 果 Q= KEY[1i], 则 这 个 算法 成 功 地 结束 。 
A4.[ 前 进 到 下 一 个 ] 如 果 LINK[i] 关 j, 则 置 i<-LINK[i], 并 转 回 A3。 
A5.[ 求 空 的 节点 ] R 减 值 一 次 或 多 次 直到 找 出 一 个 值 ,使 得 TABLE[ R 1] 是 空 
的 ,如 果 R=0, 则 这 个 算法 以 溢出 结束 ;否则 置 LINK[i]<-R。 
A6. [准备 插入 ] 和 置 i 一 R,TAG[R1<-0, 并 转 到 A8。 
A7.| 移 动 一 个 记录 ] 重复 地 置 i<-LINK[i] 一 次 或 多 次 ， 下 到 LINK[i]==j 为 
止 。 然 后 执行 步 台 A5 ,然后 置 TABLE[ R ]<-TABLE[ i ],i<-j,TAG[j]<-1。 
A8.[ 插 入 新 的 键 码 ] 标记 TABLE[i] 为 一 一 个 已 占用 的 节点 且 KEY|i]<—Q, 
LINK[i|<—;。 | 


(注意 如 果 TABLEL i | 已 被 占据 的 话 , 仅 仅 给 定 i 的 值 ,就 有 可 能 确定 对 应 的 完全 
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的 键 码 K。 我 们 有 g(k) = KEY(i) ,而 后 如 果 我 们 置 ;< LINK[; 10 次 或 多 次 直到 TAG 
[i]=1 为 止 ,我 们 将 有 Ah(K)=i--1。6) 

14 .按照 所 述 的 约定 ,2.3.3-(6) 的 记号 “X<RAVAIL 现在 代表 下 列 操作 : 置 X< 
AVAIL; 然 后 置 Xx<-LINK(X)0 次 或 多 次 直到 或 者 X= A( 一 个 溢出 错误 ) 或 TAG(X)=0; 
最 后 置 AVAIL<-LINK(X) 。 

为 了 插入 一 个 新 的 键 码 K, 置 0 二 AVAIL,TAG(Q)<1, 并 把 K 存 入 这 个 字 中 。 
[或 者 ,如 果 所 有 键 码 都 是 短 的 ,就 省 略 这 个 键 码 , 而 且 在 后 边 以 K 来 代替 8 |] 然后 
置 R 寺 AVAIL,TAG(R)<-1,AUX(R)<-Q,LINK(R)<- 和 人。 置 P<h(K)。 而 有 量 

如 果 TAG(P) =0, 则 置 TAG(P)<-2 ,AUX(P)<-R; 

如 果 TAG(P)=1, 则 置 S 寺 AVAIL,CONTENTS(S)<-CONTENTS(P),TAG(P)<-2,AUX 
(P)<—R,LINK(P)<—S; 

如 果 TAG(P) =2 , 则 置 LINK(R)<-AUX(P),AUX(P)<-R。 

为 了 恢复 一 个 键 码 KK: 置 P<-h(K), 而 且 

如 果 TAG(P) 关 2, 则 不 存在 ; 

如 果 TAG(P)=2, 则 置 P<-AUX(P); 然 后 置 P<-LINK(P)0 次 或 多 次 下 到 或 者 P= 
A, 或 TAG(P)=1, 以 及 或 者 AUX(P) = K( 如 果 所 有 的 键 码 都 是 短 的 的 话 ) ,或 AUX(P) 
指向 包含 K 的 一 个 字 ( 也 许 间 接地 通过 带 有 TAG=2 的 字 )。 

Elcock 开创 性 的 方案 [Comp.J.8 (1965),242 一 243] 实 际 上 使 用 TAG=2 和 TAG 
=3 来 区 分 长 度 为 1 的 表 ( 当 我 们 能 节省 一 个 字 的 空间 时 ) 和 更 长 的 表 。 这 是 一 个 
值得 的 改进 ,因为 我 们 假设 有 这 样 一 个 很 大 的 散 列表 ,对 于 它 几 乎 所 有 的 表 的 长 度 
都 为 1。 

使 用 连接 而 不 是 分 开 的 拉链 ,J.S. Vitter 提出 了 把 散 列 表 放 在 一 个 很 大 的 链接 
内 存 的 “ 顶 上 ”的 另外 一 个 方法 [If Proc. Letters 13 (1981) ,77 一 79 | 。 

15. 如 果 总 有 一 个 空 的 节点 , 则 会 使 得 内 部 查找 循环 更 快 些 ,因为 我 们 不 需要 维 
持 一 个 计数 器 以 确定 步骤 L2 已 被 实施 多 少 次 。 较 短 的 程序 足以 补偿 这 一 个 浪费 的 
单元 。[ 另 一 方面 ,有 一 种 简洁 方式 省 略 变量 N 并 允许 这 个 表格 在 算法 L 中 变 成 完 
全 满 的 ,而 不 显著 地 减 慢 这 个 方法 ,除非 当 这 个 表 真 正 地 溢出 了 :简单 地 校 验 z<0 
是 否 发 生 两 次 ! 这 项 技巧 不 适用 于 算法 D。 

16. 否 :0 总 导致 SUCCESS ,而 无 论 它 已 经 插入 与 否 , 而 且 SUCCESS 在 不 同 的 时 间 
以 不 同 的 i 值 出 现 。 

17. 然 后 第 二 个 探查 将 总 是 对 于 位 置 0 进行 。 

18.(31) 中 的 代码 比 (30) 多 花费 大 约 3(A- S1) 单 位 , 它 节 省 了 4 乘 (26)、 
(27) 和 (28)、(29) 之 间 的 差 。 对 于 一 次 成 功 的 查找 , 仅 当 表 是 94% 以 上 满 时 (31) 才 


是 有 利 的 ,而 且 它 决 不 节省 多 于 大 约 方 x 的 时 间 。 对 于 一 次 不 成 功 的 查找 , 当 这 个 
表 是 高 于 71% 满 时 ,(31) 是 有 利 的 。 
20 .我 们 要 证 明 


” /17 ， 


k 
j= [> J (modulo 2”) 和 1 过 j 壹 k 过 2” 


意味 着 j =&。 我 们 发 现 j(j 一 1) 圭 k(k 一 1)(modulo 2”*!) 意 味 着 (& 一 j)(k+j 一 
1) 圭 0。 如 果 朋 一; 是 奇数 , 则 名 + j 一 1 必须 是 2” "的 一 个 倍数 ,但 这 是 不 可 能 也 
因为 2 三 &+j 一 1 人 2”*1 -2。 因 此 一; 是 偶数 ,所 以 &+j 一 1 是 奇数 ,所 以 一 j 
是 2” :的 一 个 倍数 ,所 以 &=7J。[ 反 之 ,如 果 M 不 是 2 的 一 个 乘 宕 , 则 这 个 探查 序 
列 无 效 。 

探查 序列 有 第 二 次 堆积 ,而 且 它 使 程序 D 的 运行 时 间 ( 如 同 在 (30) 中 修改 的 那 


岩 ) 增 加 大 约 二 (CD) (A - S1) 单 位 ,因为 有 se “2，)| M 现在 是 可 以 忽略 的 。 


在 这 个 表达 到 大 约 60% 满 以 前 ,这 是 一 项 小 的 改进 。 

21. 如果 NN 被 减少 , 则 算法 D 可 能 失误 ,因为 它 可 能 达到 一 种 没有 可 用 空间 因 
而 无 限 地 循环 的 状态 。 男 一 方面 ,如 果 N 未 被 减少 , 则 当 仍 然 有 空间 时 ,算法 D 可 
以 标志 溢出 。 后 一 选择 的 弊病 较 少 ,因为 重新 散 列 可 用 来 除去 被 删 去 的 单元 。( 注 
意 在 这 种 情况 下 算法 D 将 使 N 增值 ,而 且 仅 当 插入 一 项 到 一 个 以 前 的 空位 置 时 才 
作 溢出 判断 ,因为 N 表示 非 空 的 位 置 数 。) 我 们 也 可 以 有 两 个 计数 器 。 

22 .假设 位 置 } 一 1,j 一 2,…,j 一 & 被 占用 ,而 且 j 一 一 1 为 空 (modulo M)。 则 
被 插入 之 前 先 探查 位 置 ; 并 发 现 该 位 置 已 被 占用 的 那些 键 码 ,恰恰 是 在 位 置 ) 一 1 到 
7 一 上 之 间 的 那些 键 码 ,这 些 键 码 的 散 列 地 址 不 处 于 j 一 1 和 ;一 之 间 ; 这 些 有 问题 
的 键 码 以 插入 的 次 序 出 现 。 算 法 R 把 第 一 个 这 样 的 键 码 移 动 到 位 置 ; 去 ,并 在 一 个 
较 小 的 有 问题 位 置 的 范围 内 重复 这 个 过 程 ,直到 不 再 剩 下 有 问题 的 键 码 为 止 。 

23.J.S. VitterlJ. Algorithms 3 (1982) ,261 一 27$] 设 计 的 接合 的 拉链 的 删 去 方 
案 维持 查找 时 间 的 分 布 。 

24.P(P-1)(P-2)P(P-1)P(P-1)(MP(MP-1):…(MP-6))=M (Cl 
-(5-21M))P ”+O(P“))。 一般 地 ,一 个 散 列 序列 ct…aw 的 概率 是 (了 16! 
Py)/(MP)~>=M ~ +O(P '), 其 中 6 是 等 于 j 的 a; 的 个 数 。 

25. 设 第 (N +1) 个 键 码 散 列 到 位 置 a ;P, 是 M 六 乘 使 得 & 个 位 置 a ,a 一 1,…， 
a 一 kt+1(modulo MI) 被 占用 和 a -有 个 为 空 的 散 列 序列 数 。 由 这 个 算法 的 循环 对 
称 性 ,有 a +1,…,a + 个 被 占用 和 a +t+1 个 空 的 这 种 序列 的 数目 是 g(M,N,: 
十 到 ) 。 
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26. 31 31 41 11 3,2)f(3,2)f(5,4)f(2,1) =2°3°547 = 4252500。 
27. 休 循 提示 


s(n,z,y)= >， (Je + RkR)*(y— Rk)” (yy 一 到 ) 十 
人 (DC 


“718 ， 
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在 第 一 个 和 中 ,以 n 一 & 代替 &, 而 且 应 用 Abel 公式 ;在 第 二 个 和 中 ,以 &+1 代替， 
现在 


g(M,N,k) = (2) +1) i(M-k-1)" “i(M-N-1) 
而 且 当 =N=M-1 时 有 0/0=1, 而 且 


MN > (kg+1)P,= >， jg(CMN = 


3(D Ete(M Nk) + DR+1)g(M,N,k)) 


第 一 个 和 是 MX Pi = MA ,而 第 二 个 是 5s(N,1,M-1)=MY+2NMV 1+3N(N 
-1)M “+… 二 MQIi(M,N)。|[ 关 于 类 似 于 s(n ,x,y) 的 和 的 进一步 研究 , 见 J. 
Riordan ,Combinatorial Identities (New York:Wiley,1968),18~23,| 


28. 设 sn zy) = Dao (tk) yh)" ht(y n ); 然 后 如 同 在 习 


题 27 中 那样 ,我们 求 得 1(n,zx,y)= xs(n,rz,y)t+nti(n-1,z+1,y—1),t(N,!1, 
M-— 1) 一 M (3Q3 (M,N) -2Q, (M,N ))。 于 是 2 (k 十 1)°P, 一 M- ~、， 


(FRTI tTR+I tt je( MN,k) = Q (M,N) -SQ (M,N)+ 
廊 Qi(M,N) + 去 。 减 去 (Ch)? 给 出 方差, 它 近似 地 等 于 了 (1-4a) “于 (1 一 a)” 


-十 。 标 准 差 通常 大 于 均值 ;例如 , 当 a=.9 时 ,均值 是 50.5 而 标准 差 是 二 V27333 


X82.7。 

29. 设 M=m+1,N= nn; 安全 的 停车 序列 恰 是 那样 的 序列 ,其 中 当 应 用 算法 L 
于 散 列 序列 (M 一 a1)…(M 一 4a;) 时 ,位 置 0 是 空 的 。 因 此 答案 是 f(m+1,n)= 
(办 +1)2 一 20 +1)2 :1。[ 这 个 停车 问题 是 由 A.G.Konheim 和 B. Weiss 开始 研究 
的 , 见 SIAM J. Applied Math. 14 (1966) ,1266 一 1274 。 | 

30. 显 然 ,如 果 小 汽车 都 停 下 了 , 则 它们 定义 了 这 样 一 个 排列 。 反 之 ,如 果 存 在 
Pi1p2… pn, 设 9192… qs 是 逆 排 列 (q;==j7 当 且 仅 当 p;=i), 且 设 b; 是 等 于 ;的 ai 的 
个 数 。 如 果 我 们 可 以 证 明 6, 声 1,6;,_1+ 6, 志 2, 等 等 ;等 价 地 561 宇 1,5b1 + 56, 宇 2 等 
等 , 则 每 一 辆 小 汽车 都 能 停 下 ;但 这 显然 是 真 的 ,因为 & 个 元 素 4。,… ,a 全 部 全。 

[ 设 x; 是 gq; 的 “ 左 影响 ”, 即 当 且 仪 当 qj-1<g;,… ,gj-4-1<94;) 且 jk 或 gq;-。 
> gq; 时 一 =&。 在 支配 一 个 给 定 的 醒 来 序列 a1…a, 的 所 有 排列 p1…p, 当中 ,“ 立 即 
停车 ”算法 求 得 最 小 者 (在 字典 编辑 次 序 下 )。Konheimn 和 Weiss 发 现 , 导致 一 个 给 
定 排 列 p1… zp 的 醒 来 序列 数目 是 117_17;; 值 得 注意 的 是 , 取 壳 所 有 排列 q1… gq,; ,这 
些 乘积 之 和 是 (+1)? !。| 

31. 可 能 有 许多 有 趣 的 联系 ,而 且 下 列 两 个 是 作者 特别 喜爱 的 [也 参见 Foata 和 
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Riordan, AEquat. Math. 10 (1974) ,10 一 22 | : 

a) 在 上 述 答案 的 记号 下 , 当 且 仅 当 (651,6,,…6;,0) 是 在 前 根 次 序 下 树 节 点 次 
数 的 一 个 正确 序列 时 ,计数 61,6s,… ,5b 对 应 于 一 个 完全 的 停车 序列 。( 对 照 2.3.3 
一 (9) 它 画 出 了 后 根 次 序 。) 每 株 这 样 的 树 都 对 应 于 10,… ,nj 上 nl /6b1! …6b,! 株 
不 同 的 带 标号 的 自由 树 ,因为 我 们 能 让 0 作为 根 的 标号 ,而 且 对 于 有 =1,2,…,n, 我 
们 可 以 逐次 地 由 剩 下 未 使 用 的 标号 中 以 (6 ++… 二 6b)! 1 (1+… 十 0)!1 种 
方式 选择 在 前 根 次 序 下 第 个 节点 的 儿子 的 标号 ,以 从 左 到 右 递 增 的 次 序 附加 诸 标 
号 。 而 且 ,每 一 个 这 样 的 计数 序列 ,都 对 应 于 n1 /61!1 …6。,! 个 醒 来 序列 。 

b) Dominique Foata 已 经 给 出 下 列 别 致 的 一 一 对 应 关系 : 设 cl1…a, 是 安全 停车 
序列 , 它 总 在 空位 ; 处 停放 车 wj 。 对 于 1 委 ) 委 ”, 当 wj =1 时 从 7 到 0 画 一 条 边 , 和 否 
则 从 7 到 gq。 -1 画 一 条 边 ,就 构造 出 了 10,1,…,n| 上 的 一 株 带 标号 的 自由 树 。 (把 这 
株 树 的 节点 想 成 是 汽车 ,汽车 j 被 连接 到 另 一 辆 车 上 ,该 车 恰恰 停 在 妻子 ; 醒 来 处 
前 面 的 位 置 上 )。 

例如 ,由 Foata 的 规则 , 醒 来 时 间 序 列 314159265 导致 自由 树 。 


2 7 
9 0 
0 


4 1 3 


5 8 

反之 ,假定 箭头 从 根 0 处 出 发 ,而 且 在 每 一 步骤 都 选择 最 小 的 “ 源 ", 通 过 拓 朴 排 
序 可 从 树 得 到 停车 序列 。 从 这 个 序列 ,可 以 重新 构造 a1…a,。 

c) 首先 通过 命 节点 的 父 节点 是 在 排列 g1…g, 中 跟随 的 > 的 头 一 个 元 
素 ,可 构造 一 株 辅助 的 树 ; 如 果 没 有 这 样 一 个 元 素 , 命 父 节点 为 0。 然后 以 前 根 次 
序 ,如 下 述 进行 ,制作 辅助 树 的 一 个 副本 并 且 重 新 标号 新 树 的 非 0 节点 :如 果 在 辅助 
树 中 当前 的 节点 的 标号 是 ,把 它 当 前 的 标号 同 在 它 的 子 树 中 当前 为 第 1+ ps -a 
最 小 的 标号 交换 ,例如 


辅助 的 树 最 后 的 树 
6 6 
3 1 < 3 5 
0 0 
9 87 5 4 281 
4 2 9 7 


为 颠倒 这 个 过 程 ,我 们 可 以 通过 以 前 根 次 序 进行 把 每 个 市 点 的 标号 同 在 它 的 子 
树 中 当前 最 大 的 标号 加 以 交换 。 
构造 (a) 和 (b) 是 密切 相关 的 ,但 构造 (c) 十 分 不 同 。 它 有 这 样 有 趣 的 性 质 , 即 从 
它们 中 意 的 位 置 开 始 车 的 位 移 之 和 等 于 树 中 反 序 个 数 一 即 标号 对 a > 2 的 个 数 ,其 
中 < 是 65 的 一 个 祖先 。G. Kreweras[LPeriodica Math. Hung. 11 (1980) ,309 一 320 | 首 
先 发 现 了 停车 序列 和 树 的 反 序 之 间 的 这 一 关系 。 树 的 反 序 同 连通 图 密切 相关 这 一 
"” 720 ， 
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事实 [Mallows 和 Riordan,Bull. Amer. Math. Soc. 74 (1968) ,92 一 94 | 现在 使 得 有 可 
能 推导 出 取 训 所 有 停车 序列 的 [5 之 和 ,其 中 D(p)= (pi a) +(p,- 


a, ) 等 于 在 标号 顶点 10 , 1 ， "Nn | 上 有 n+ k 条 边 的 连通 图 的 总 数 。 [参见 Janson, 
Luczak,Knuth 和 Pittel,Random Structures Alg. 4 (1993),233 一 358 的 论文 中 的 等 
式 (2.11),(3.5) 和 (8.13)。,] 


32. 设 


5 一 2 (be mea My —1) 
那么 ,根据 Svante Janson 的 观察 ,我 们 有 c= max,s,(s, - * ) ,这 个 量 是 有 意义 的 ， 
因为 im es = 一 ce。 这 个 解 可 以 通过 在 co =0 的 假定 基础 上 定义 cy ,cv_ ，,… 
而 找到 ;然后 ,如 果 结 果 表 明 co 大 于 0, 则 只 需 重新 定义 cy_i,cv_ ，…, 直 到 不 再 作 
进一步 的 改变 为 止 。 

33. 各 个 概率 不 是 独立 的 ,因为 条 件 b+ 51+… + bi 1=N 未 考虑 在 内 ;这 个 
推导 允许 25b; 有 任何 给 定 的 非 负 值 的 概率 为 非 0。 等 式 (46) 不 是 严格 地 正确 的 ; 例 
如 ,它们 意味 着 对 于 所 有 的 ,gi 为 正 ,这 同 c 决 不 超过 N -1 的 事实 矛盾 。 

Gaston Gonnet 和 Ian Munro[lJ. Algorithms $ (1984),451 一 470] 已 经 找到 了 从 
导致 (51) 的 论证 出 发 ,通过 引进 对 于 一 个 序列 (A，》 的 泊 松 变换 ,来 导出 精确 结果 
的 一 个 有 趣 的 方法 。 我 们 有 eA (mz)"/Jn! = az*, 当 且 仅 当 A,, = 


> a.ne/ me’, 
34.(a) 有 |[。 | 种 方式 来 选择 ; 的 集合 使 得 a) 有 一 个 特定 的 值 , 而 且 有 (M - 
1)N-* 种 方式 来 赋值 给 其 它 的 a。。 因 此 
Pv, = 人 jw -1 六 AM 
(b) (50) 中 Pw(z)= B(z)。 
(c) 考 虑 为 找 出 所 有 键 码 的 探查 总 数 ,不 计算 取 图 38 中 表 列 头 表 内 指针 的 次 
数 ,如 果 使 用 这 样 的 表 的 话 。 长 度 为 & 的 一 个 表 列 对 总 和 数 责 献 了 人“ ;因此 


cv = MD JPwN= (MIN)( TP) + Ps(D] 

(d) 在 情况 (7) 中 长 度 为 & 的 一 个 表 列 要 求 & 次 探查 (不 计 取 表 头 ), 而 在 情况 
(让 i) 中 , 它 要 求 &+ 9xo。 于 是 在 情况 (ii) ,我 们 得 到 Ch= BD(k+ 60)Pw, = PA(1)+ 
Pn(0)= N/M+ (1--1/M)NSa+e ,而 情况 (i) 简 单 地 有 cw= N/M =a。 公式 
MCN=M-N+NCN 适用 于 情况 (iii) ,因为 M -NN 个 散 列 地 址 将 发 现 一 个 空 表 位 
置 ,而 N 将 引起 去 查找 某 个 表 列 的 结尾 ;这 就 得 到 (18)。 

“721 . 


习题 答案 


35.(i) 5 1+3k- (kt) 1jPw=lrNICM) -MG-G-IUMDONUCN 


+1)sz1+ 二 a (1— e “)/a。 (ii) 在 (i) 的 结果 中 加 上 2640 Pn = (1 一 1/ MA 六 


e“。(ii) 假定 当 一 次 不 成 功 的 查找 在 长 度 为 & 的 一 个 表 列 的 第 j 个 元 素 处 开始 ， 
给 定 的 键 码 相对 于 其 它 下 个 元 素 有 随机 次 序 ,所 以 预期 的 查找 长 度 是 (7 1+2+… 
+(R+1- 门 +(R+1- 门 )1R+1)。 现 在 对 了 求 和 给 出 MCN= M-N+MD(CR 


9p? +2k) Pl(6R+6)=M- N+M(EN(N-DIM+ FNIM-1+(MI(Nt+ 
1))(1 一 (1 一 2M)N*1)); 因 此 Ch 了 e+ e+ (le ")/a 

36.(i) NIM = NI/IM’?, (ii) BD(60 + Rk) Pa = DD (610+ Rk’)Py= Pn(0)+ 
P%(1)+ PN(1)。 减 去 (CN》 给 出 答案 , 即 (M 一 1)N/IM*+(1-1/M)^*(1-2N/M 
-1-1/M)N) 守 ate “(1-2a-e “) 之 1-e -ee “=0.4968。|[ 对 于 数据 结构 
(ii) ,将 需要 像 在 习题 37 中 那样 一 个 更 复杂 的 分 析 。] 

37. 设 Sv 是 (Cw 一 1)?* 的 平均 值 ,考虑 散 列 序列 的 MYN 种 选择 并 认为 诸 键 但 
是 同样 可 能 的 。 则 


Ne _1 N _ 1, ... 
MINSv = 5, je 1 ) 十 十 


ku (km 一 3 ) (ku 一 Dj= 


1 N _ 1 
$m |v 4 人 -1D= 


3MN(N -DON-2)>) 站 


1 N-2 MN-k 
> MN(N D3 )™ 1)N-* = 


FMN(N DN -2)MN-3 1 5MN(N DMM”? 


方差 是 Sv 一 ((N-1)/2M)*= (CN-DON+6M-5)/12M2 
关于 在 这 里 计算 的 总 方差 和 两 个 其 它 的 方差 思想 之 间 有 趣 的 关系 ,参见 
CMath. $ 8.5。 这 两 个 方差 是 平均 探查 次 数 ( 取 遍 所 有 存在 的 表 项 ) 的 方差 ( 取 这 随 
机 散 列 表 ) ,和 探查 次 数 ( 取 遍 所 有 存在 的 项 ) 的 方差 的 平均 ( 取 饥 随机 散 列表 )。 总 
方差 总 是 其 它 两 者 之 和 。 而 在 这 个 情况 下 探查 的 平均 数 的 方差 是 (M 一 1)(N 一 1)/ 

(2M”*N)。 
38. 由 等 式 6.2.2-(5) 和 6.2.2-(6), 在 不 成 功 的 情况 下 平均 探查 次 数 为 
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PN(2 隔 41 一 2+ 640), 在 成 功 的 情况 下 为 (MI/IN)3 Pyk(2(1+1/k)H, 一 3)。 这 
些 和 分 别 等 于 2f(N)+2M(1- 1-1/MD)NIII(N+1)+(1-1/M)N-2 和 2(MI/ 
N)AON)+2f(N -1)+2M(1-(1 一 1/1M) )/IN 一 3, 其 中 f(N)= PyH。 习 题 
5.2.1-40 告诉 我 们 当 N=aM,M>% 时 f(N)=lnat+y+Ei(a)+O(M- LI。 

[ 树 散 列 首先 是 由 P.F.Windley 提出 的 ,参见 Comp.J.3 (1960) ,84 一 88。 在 上 
一 段 中 的 分 析 表 明 树 散 列 不 比 简单 的 拉链 好 到 足以 证 明 额 外 的 链接 字段 的 正确 性 ; 
表 列 无 论 如 何 总 是 短 的 ;而 且 当 M 很 小 时 , 它 不 比 纯粹 树 查 找 好 到 足以 认为 散 列 时 
间 人 合理。] 

39.( 对 算法 C 的 分 析 的 这 一 方法 是 由 JS.Vitter 提出 的 。) 当主 2 时 ,我 们 有 
CN+1(k) 一 (AM -- k)cn(k) 十 (R , 1)cNn(k 一 1) ,0 日 2 kc (k) = NM 。 因此 


k 
ON+1 一 > 回民 一 
& 之 2 


DM A + (kDov(k -1)) = 


k 之 2 2 


5 (Mt) )+ k ew Ck) = 


(M +2)S»v + NMY 
因此 
Sy=(N- DM +(N-2)MY (M+2)+:… + M(M+2)N? = 
7(M(M +2) — MN! -2NMN)。 
考虑 在 不 成 功 的 查找 中 探查 的 总 数 ,对 h(K) 的 所 有 M 个 值 求 和 ;长 度 为 & 的 
每 个 表 列 对 总 和 贡献 & + 6,0+ 四 ,因此 MN*1C4 = MN*114 S、。 


k+l1 
3 


(M+3)Uv+ Sv+ NM ,因此 UN= 二 (MNOM -6N) -9MCOM+2NTS8MUMT+ 
30 


3) 六 )。 方 差 为 2U0N/MN'1+ Ch 一 (CN)?, 对 于 N=aM,M->o, 它 趋 于 


3 工 ， 了 工 ,2 + | -Bj 4 3a 1 4a 
144 12* 4 4 


当 a=1 时 ,这 大 约 是 4.50, 所 以 标准 差 大 约 以 2.12 为 界 。 

41. 设 Vn 是 在 表格 的 “高 " 端 被 占用 单元 的 块 区 的 平均 长 度 。 这 个 块 区 的 长 度 
为 的 概率 是 Am(M 一 1 一 &) 人 /MN ,其 中 Aw 是 具 如 下 性 质 的 散 列 序列 (35) 的 
个 数 , 它 使 得 在 算法 C 作 用 下 ,前 N -个 和 最 后 k 个 单元 为 已 占用 的 ,并 且 使 得 子 
序列 1,2,…,N- 以 递增 次 序 出 现 。 因 此 

M VN =BAvm(M-1- k= MBM- kAMM-1- k= 
* 723 . 


40. 像 习题 39 中 的 S、 那样 定义 UN ,但 以 | ) 来 代 巷 | |。 我 们 求 出 UN ， = 


习题 答案 





M -(M-N)ZAwM-ANL = MY (M-N)(M+ DN 
现在 Tn = 三 (N/M)(1+ VAN 一 10 一 … 一 TN-1), 因 为 Tot+ .+ TN_ 1 是 在 此 之 前 KK 
减 值 的 平均 次 数 , 且 N/M 是 在 当前 的 步骤 减 值 的 概率 。 这 个 递 推 式 的 解 是 Tv = 
(N/M)(1+1/M)*。( 这 样 一 个 简单 的 公式 应 该 有 一 个 更 简单 的 证 明 1!) 
42. Sln 是 以 A=0 被 插入 的 项 数 除 以 N。 
43. 设 N=aM 和 M= BM ,并 设 e “+4=1/B,o=a/8。 则 车 o 志 4 ,就 有 CNs: 


1+ 30 和 Ch~pte 1 若 p 这 4, 则 Cy (er -1-2012A)(3-218+21)+ 


(p+22 一 4%/6) 和 和 CHB+ 天 (eze -1)(3-2/8+24) -3(p- 和)。 对 于 


ax=1, 当 BA.853 时 ,我 们 得 到 最 小 的 Cws1.69; 当 8 一 .782 时 出 现 最 小 的 Cs 
1.79。 对 于 一 个 宽 范围 的 ,设置 8=.86 给 出 近乎 最 优 的 查找 性 能 。 所 以 值得 把 
关 一 个 冲突 放 在 不 同 散 列 地 址 发 生 冲 突 的 一 个 区 域 中 ,尽管 较 小 范围 的 散 列 地 址 将 
引起 更 多 的 冲突 出 现 ,这 些 结果 是 由 Jeffrey S. Vitter, JACM 30 (1983) ,231 一 258 
给 出 的 。 

44《〈 下 列 便 算 的 方法 是 作者 在 1972 年 找到 的 解 ;由 M.S. Paterson 给 出 的 一 个 
更 漂亮 的 解 由 Greene 和 Knuth 在 Mathematics for the Analysis of Algorithms 
(Birkhauser Boston,1980) 83.4 中 作 了 说 明 。Paterson 还 发 现 了 简化 本 节 中 若干 其 
它 分 析 的 重要 方法 。) 

从 左 到 右 ,以 1 到 m 给 阵列 位 置 编 号 。 考 虑 同等 可 能 地 具有 个 “p 步骤 ”和 
-个 “g 步 对 "的 所 有 | ”| 个 操作 序列 的 集合 , 设 g(m,n+1,k,7) 是 (”) 乘 上 前 
r 一 1 个 位 置 变 成 已 占用 的 和 第 > 个 保持 为 空 的 概率 。 于 是 g(m,1,k,r) 是 (m 一 
1) “1-4) 乘 以 下 述 的 概率 取 遍 所 有 配置 

la<<a<l; (cdc), 2Cem 
之 和 :所 述 概率 是 当 第 ai 个 操作 是 一 个 p 步骤 ,而 剩 下 的 1 一 1 一 个 操作 是 分 别 以 
选择 位 置 c1 ,…,c,-_1- 4 开始 的 诸 g 步骤 时 ,第 一 个 空位 置 是 > 的 概率 。 通 过 附加 进 
一 步 的 条 件 , 即 给 定 1 二 561<…<b<r 第 a 个 操作 占用 位 置 5,, 而 后 对 所 有 的 配置 
求 和 ,我 们 得 到 递 推 式 


g(m,l,k+1,r)= > (1 -6 1)! (mo—r)! 


TO Cm om -+l)g(m,a,k,b) 


C1 - 可 2 -Lt DD(P+[r¥1] (PP)) 


其 中 P=(m/(m 一 1))“'。 令 Glm,7,k)= Di_i(m+1-r)g(m,1,k,r), 由 此 
得 出 ， 





g(m,l,0,r) = 


10 一 /十 工 


2 


i—1 
> Gm,a,k); 
a=1 
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MI 一 /十 工 
MI 一 /十 2 
对 于 所 述 问题 的 答案 是 mm 一 >?_0p*q9”“G (m,n+1,k), 它 (在 实施 了 某 些 技巧 之 
后 ) 等 于 m 一 (mm 一 n)/(m 一 n+1))(Q,+ mR+ pSR), 其 中 


G(m,l,0) = (m + P,) 


Q;= PN19 ， 
J 
k= [1 5 | 1 二 = 元 一) 


GS 一 io je ze 
本 
< (1L-1C +1 一 R))Q， 
pr Il’, ~ pl/l(m+1— 7)) 
当 p=1/m 时 ,对 于 所 有 的 j,Q;=1。 设 包 = m+1,n=aw,w™ 六 0 ,我 们 求 得 In R 
= 一 (有 H, 一 HyQ_ ww)pt+O(p ); 因 此 R=1+w iln(1-a)+O(w“); 而 且 类 似 
地 S= aw+ O(1)。 于 是 答案 是 (1 一 a) -1-a-ln(1-a)+O(w 1)。 
注意 : 较 简 单 的 问题 “以 概率 p 占用 最 左边 ,否则 占用 任何 随机 选 定 的 空位 置 ”， 
通过 在 上 边 的 公式 中 取 P;=1 即 可 获得 解决 ,而 且 管 案 是 mm--(m+1)(m 一 n)R/ 
(mm 一 n 二 1)。 为 了 得 到 有 第 二 次 堆积 的 随机 探查 的 CN, 置 n= N,m= M, 并 在 上 
边 的 答案 中 加 1。 
45. 是 的 。 见 L. Guibas,JACM 25 (1978) ,544 一 555 。 
46. 对 于 所 有 的 x 和 非 负 整数 ”通过 规则 


Dd rr 


- k 
对 于 之 0 定义 数 | | ”| |。 置 z= -1, -2,…n -1 意味 着 


[= DD 7) "NFS 
然后 置 z=0 意味 着 对 于 所 有 上 >, 我 们 可 以 取 | | ”| | =0, 所 以 定义 方程 的 两 边 
是 在 ”+ 1 个 点 上 相等 的 xz 的 次 多 项 式 ,由 此 得 出 数 | | ”| | 有 所 述 的 性 质 。 

设 A(N,r) 是 保持 头 + 个 为 已 占用 的 和 下 一 个 为 空 的 散 列 序列 a1… aw 的 数 


目 。 有 |{ “7 种 占 用 单元 的 型 式 ,而 且 每 一 种 型 式 出 现 的 次 数 就 等 于 序列 


aaN1T 委 ai 三 NN 的 数目 ,这 种 序列 包含 数 7 +1,r+2,…,NN 的 每 一 个 至 少 一 
723 ， 


习题 答案 


次 。 按 容 斥 原理 有 | | 、、， | | 个 这 样 的 序列 ;因此 


MD ly 
现在 CNy=1 + MD AND (Dr 3 Hr +) 


1+MNIS fCON,r (N+(N -1)7) 


T+ 


设 员 (24 人 人] 人 2] 我们 
(zr Ds ot D7) D7 


k k k 

因此 ,S, (x)= (z+1)((xz+n+2)”-(x+n++1)”)。 由 此 得 出 Cy=N(1+1/M)- 
(N-—-D(- N/MGU+IMNEEN(I (1-a)e); 而 且 Cy=(N-1)((1+1/M)/2+ 
(1+1/M)*)+(3M*+6M+2 (+IMN -1)/N- (3M+2)(1+1/M)V, 当 N= 
M 一 1 时 , 它 是 (e 一 2.5)M + O(1)。 


关于 数 | | "| | 进一步 的 性 质 ,参见 John Riordan,Combinatorial Identities (New 


York Wiley,1968) ,228 一 229。 

47. 算 法 工 的 分 析 几 乎 可 逐 字 适用 ! 任何 带 有 循环 对 称 性 的 探查 序列 ,而 且 它 
仅仅 勘察 同 从 前 考察 过 的 那些 位 置 相 邻 的 位 置 ,都 将 有 相同 的 特性 。 

48.Cvy=1+p+p +…, 其 中 p= N/M 是 一 个 随机 位 置 被 填 满 的 概率 ;因此 
Cw=MI(CM-N), 而 且 Cvw=NTIiD ICcI=NTIMCBV 一 Hy_n)。 这 些 值 近似 
地 等 于 一 致 探查 时 的 那些 值 ,但 稍微 高 些 ,因为 在 相同 的 位 置 有 多 次 探查 的 机 会 。 
其 实 对 于 4= N < M16, 线 性 探查 是 更 好 的 ! 

实际 上 ,我 们 将 不 使 用 无 穷 多 个 散 列 函数 , 某 些 其 它 的 方案 , 像 线 性 探查 ,将 最 
终 地 被 用 作 最 后 的 手段 。 这 个 方法 比 正文 中 描述 的 那些 方法 低劣 ,但 是 它 有 着 历史 
上 的 重要 性 ,因为 它 提示 了 导致 算法 DD 的 Morris 方法 。 见 CACM 6 (1963),101, 其 
中 M.D. McIlroy 把 这 个 思想 归功 于 V.A.Vyssotsky; 同 样 的 技术 也 由 A.W.Holt 星 
在 1956 年 就 发 现 了 ,他 成 功 地 把 它 使 用 于 UNIVAC 的 CPX 系统 中 。 

49.CN-1=Du>s(R-D)Pws Ds,(k -be “(ab)/k! = abts(a), 注 :一 
般 说 来 ,如 果 P(z)= Po+ Piz+… 是 任何 概率 的 生成 函数 , 则 

SD- oP) = 三 人 2) 


b>0 > 1l—z (1 — z)” 


M k—-b+l1 
而 且 ， cv -1= 起 | jp 一 
k>56b 2 
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2 -1)—2k(6 -1)+6(6 -1))Py, 


Tem(ba)b! (b+ ba 20+2+ 
(ba” 一 2a(b6—-1)+6-1)R(a,b)) 

[对 于 具有 拉链 的 成 功 查 找 的 分 析 , 首 先是 由 W.P. Heising 于 1957 年 进行 的 。 
(57) 和 (58) 中 的 简单 表达 式 是 由 J.A.Van der Pool 于 1971 年 建立 的 ;他 也 考虑 了 
怎样 把 一 个 表示 存储 空间 和 存 取 次 数 的 组 合 代价 的 函数 极 小 化 。 因 为 5,、,(k 一 
bp)*Py= (2N/M)(CNn—1)—- (CN-1), 我 们 可 以 确定 CN 和 每 个 桶 溢出 次 数 的 方 
差 。 淤 出 总 数 的 方差 可 以 通过 把 M 乘 以 在 一 个 桶 中 的 方差 来 逼近 ,但 这 实际 上 太 
高 了 ,因为 总 的 记录 数 已 被 限制 为 N。 真 正 的 方差 可 以 像 在 习题 37 中 那样 来 求 得 。 
也 请 参见 3.3.1C 节 中 的 X 平方 测试 的 推导 。] 

50. 而 且 其 次 QuoCM,N-DD)=(MIN)(QoCM,N)-1)。 一 般 地 ,rQ,(CM,N)= 
MQ 2M,N)-(M-N-r)Q COMN)=MGQ (M,N+1)- Q,_1(M, 
N));Q,(M,N-1)= (MIN)(Q,(M,N)- Q,-1(M,N)), 

Sl.R(a,n)=a ‘(nn! e”(an) ”— Qo(an,n)). 

52. 参 见 等 式 1.2.11.3 一 (9) 和 习题 3.1-14。 

53. 由 等 式 1.2.11.3 一 (8),a(an)"R(a,n)=e”y(n+1,an); 因 此 由 提示 的 习 
题 可 知 RGa,2)=(1-a) 一 (1-a)“n 1!+ O(n “)。[ 这 个 渐 近 公式 可 以 更 直 
接地 通过 (43) 的 方法 得 到 ,如 果 注 意 R(a,n) 中 a 的 系数 是 

1 一 四 ja + OCR 7 一) 
的 话 。 事 实 上 ,由 等 式 1.2.9- (28),a* 的 系数 是 
,Ir+k+l 
2 Dn 1 | 
54. 使 用 提示 和 等 式 1. 2 6- (53) 和 1.2.6-(49) 一 起 ,我 们 有 
Do Da DW = De 


由 于 (n+1)! ,Ca )=e “(an)"F(2;n +2;an), 从 Kummer 著名 的 超 几 何 恒 
等 式 e “F(a;b;zx)=F(b5 一 a;6b; 一 z) 可 得 出 提示 ; 见 Crelle 1$5(1836) ,39 一 83 ,127 
一 172 ,等 式 26.4。 

55. 如 果 B(z)C(z)== > sz’', 则 我 们 有 CoO= So t+ scC1 = Sp+1 C2 = So6+2, 

;因此 B(xz)C(z)= xC(z)+ Q(z)。 现 在 P(xz)=x? 有 4b--1 个 根 g; ;用 9 
1 ,如 同 对 er*'% 2 =ow ao=e2 的 解 那样 确定 。 为 了 求解 ez-0 = w-lo, 设 
t 二 aqg 和 z= awe “, 使 得 t= ze:。 由 拉 格 朗 日 公式 我 们 得 到 


1 一 ”一 1 nn 7 一 7 一 Pa 


1 n Wa ‘ee 
+ 1 we ee = 
工 一 4 2 之 (nC—7r)! 
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1 DD, Do 


rr 之 1 m0 7] 


由 阿 册 尔 极限 定理 ,从 单位 圆 内 命 |o | 一 1, 这 可 以 重新 安排 成 
+ 和 > 2 - 1)”™ > (™ De 2+1(077 十 1)”™- 1 


7 之 0 


现在 以 只 代 蔡 ww， 而 且 对 于 和 和 产生 
“1 | b + Sa "| 十 ‘一 sD 人 1)*-1(n6)™-! 


m 守 2 n 宇 1 


在 使 用 习题 54 各 提 直 精 做 修改 之 局 得 房 第 训 的 针 站 来 。 

这 项 分 析 , 可 应 用 于 广泛 的 问题 中 , 它 是 由 N. TT.J. Bailey ,J. Roy. Stat. Soc. B16 
(1954),80~87;M.Tainiter,JACM 10 (1963),307~315;A.G. Konheim 和 B. Meis- 
ter,JACM 19 (1972) ,92 一 108 开始 进行 的 。 

56. 参见 Blake 和 Konheim, JACM 24 (1977),591 一 606。Alfredo Viola 和 
Patricio Poblete[LAlgorithmica 21 (1998) ,37 一 71] 已 经 证 明 


AM — 了 hm 一 国生 j+bk-17j-1 
i ; > | So 1 DE 


Ml ly 1 + 由 /于 2 1 
86 bp (1-T(e i D) 25M +olWw MM) 


其 中 了 是 等 式 2.3.4.4- (30) 的 树 函 数 。 
58.01234 和 02413, 加 11111 mod5 的 附加 的 移 位 ， 每 个 有 广 0 的 概率 。 








类 似 地 ,对 于 M =6, 我 们 需要 30 个 排列 ,而 且 存 在 一 个 以 击 X012345 1 ol 


60 
3254, 而 X024315, 亢 X023451， 向 X034125 开始 的 解 。 对 于 M =7， 
我 们 需要 49 个 排列 ,而 且 通 过 35 X0123456, osX0153246, X02435 
16, -< x0263145, Lx0361425, -Lx0326415, -lL x0315426 
”105 35 105 105 
生成 的 一 个 解 。 
$9. 任 何 排列 不 能 有 大 于 
M 
/2 
/MD 


的 概率 ,所 以 必然 至 少 有 
= exp( MIln 2 + O(log M)) 
个 排列 有 非 0 的 概率 。 
60.Ajtai, Koml6s 和 Szemerédi 已 经 得 到 预备 性 的 结果 ,Information Processing 
， 728 ， 
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Letters 7 (1978) ,270 一 273 。 

62 .参见 在 AMM 81 (1974) ,323 一 343 中 的 讨论 ,其 中 对 于 M 委 9 显示 了 最 好 
的 循环 散 列 序列 。 

63. 由 习题 3.3.2-8, MEV; 标准 差 是 守 xMN6。 

64 .移动 的 平均 数 等 于 (NDIM+(N-D(N-2)/M?+(N-D(N-2) 
(NIMI te In 二 
一 个 等 阶 的 问题 。] 

65. 诸 键 码 可 以 被 存储 在 一 个 顺序 分 配 的 独立 的 表格 中 (假定 ,如 果 有 删 去 的 
话 , 它 是 按 LIFO 方式 进行 的 )。 散 列表 的 项 指向 这 个 “名 字 表 ”; 例 如 TABLE[ i] 可 以 


有 形式 
Le 


其 中 二; 是 存储 在 单元 KEY[ i ] ,KEY[ i +1,… 处 的 键 码 中 的 字数 。 

散 列 表 剩 下 的 项 可 以 以 六 二 方式 中 的 任何 一 种 方式 来 使 用 :(a) 作为 算法 C 中 
的 一 个 链接 。(b) 作为 同 键 码 相关 联 的 信息 的 一 部 分 ,或 者 (c) 作为 “第 二 个 散 列 
伺 。 后 一 个 思想 ,是 由 Robert Morris 提出 的 ,有 时 可 加 速 一 个 查找 [对 于 某 函 数 hh， 
(天 ) , 仅 当 及 ,(K) 匹 配 它 的 第 二 个 散 列 码 时 ,我 们 才 仔 细 地 考察 KEY[ i 中 的 键 码 ] 。 

66. 是 ;而 且 诸 记录 的 安排 是 惟一 的 ;每 一 次 不 成 功 的 查找 的 平均 探查 数 被 减少 
成 Cy-_1, 人 尽管 当 插入 第 N 项 时 它 保 留 CN。 这 种 重要 的 技术 称 为 有 序 散 列 。 见 
Comp.J . 17 (1974),135~142。 D.E.Knuth, Literate Programming (1992), 144~ 
149,216~217。 

67.(a) 如 果 在 (44) 中 cj =0, 假 定 7-1>…>0>M-1>…>) 通 过 把 诸 a 排 
成 非 递增 的 “循环 次 序 " 得 到 一 个 最 优 的 安排 。(b) 在 步骤 L2 和 L3 之 间 , 交 换 手 中 
的 记录 与 TABLE| i ] ,如 果 后 者 比 前 者 更 接近 于 家 的 话 。[ 被 Celis, Larson 和 Munro 
在 FOCS 26 (198$) ,281 一 288 中 称 做 “Robin Hood 散 列 ”的 这 个 算法 ,等 价 于 有 序 散 

列 的 一 个 变形 。j(c) 令 hh(m,n,d) 是 使 co 三 4 的 散 列 序列 的 个 数 。 可 以 证 明 
[Comp.J.17 (1974),141o6]j(h(m,n,d)-h(m,n,d 一 1))M 是 在 所 有 Mr 个 散 列 


序列 当中 位 移 4 >0 出 现 的 总 数 ， 而 且 我 们 可 以 写 习 8 人 (wm 二 
。 现 在 使 用 习题 28 和 50 的 方法 经 精心 计算 证 明 qd? 的 平均 值 是 , 当 N= aM 





。[ 在 Comp.J. 17 (1974) ,139 一 140 上 解决 了 


1 


MN DA (h(M,N,d) -A(M,N,d —1)) = 


AI 一 


Me 2 N NN M 六 
2 3 6 6M 6M 2 2 


+ 三 1jQuCM,N) = 


”7]209 ， 


2 


7 Cm 
6 


ER 
2(1 ~- a)” 6(1—a) . 
无 需 修改 (参见 习题 28) ,Ed5 等 于 


兴 (Qs( M,N) QM N= (Qo M,N) ee ~ ee 


M| ++ J+ 0o0) 


1 1 1 TT 
(TR S30 gy (mg) O(1) 


如 果 所 有 记录 都 有 近似 地 相同 的 位 移 4 ,而 且 如 果 成 功 的 查找 比 不 成 功 的 查找 
更 普遍 得 多 , 则 在 位 置 h“=h(K)+4d 处 开始 是 有 利 的 。 然 后 探查 hh 一 1,h +1,h 
一 2, 等 等 。P.V.Poblete, A. Viola 和 J.I.Munro 已 经 证 明 [Raudom Structures and 
Algorithms 10〈1997) ,221 一 255] 通 过 使 用 一 个 称 做 “后 进 先 服务 ”的 散 列 ,可 以 使 
2 d5 几 乎 同 在 Robin Hood 方法 中 一 样 小 。 在 “后 进 先 服务 ” 散 列 中 ,每 个 新 插入 的 
键 码 被 放置 在 它 的 家 的 位 置 当 中 ,所 有 其 它 键 码 移 开 一 步 直 到 找到 一 个 空位 为 止 。 
Robin Hood 和 后 进 先 服务 技术 既 适 用 于 线性 探查 ,也 适用 于 双 倍 散 列 ,但 是 相对 于 
双 倍 探查 来 说 ,探查 的 减少 不 能 补偿 对 于 每 次 探查 所 增加 的 时 间 ,除非 表 是 极其 满 
的 。( 参 见 Poblete 和 Munro, J. Algorithms 10 (1989) ,228 一 248。) 

68 .使 用 在 习题 31 的 答案 中 提 到 的 停车 问题 和 连通 图 问题 之 间 的 联系 ,可 以 证 
明 (ai 本 的 平均 值 等 于 


DOM-N)a+(N+3)(OM-N2+(N+DOM-N)+5SN2+4N -1- 


册 


((M-N) +4M-N) +(6N+3)(M-N)+8N)QICM NT)) 
为 了 得 到 在 一 次 成 功 的 查找 中 探查 的 平均 次 数 的 方差 ,以 N? 除 和 减 去 二 (Qo(M， 


N 一 1) -1)?; 这 近似 于 二 (1+2a)/(1 -a)*-1N+ O(N-?)。( 参 见 P. Flajolet， 


P.V.Poblete 以 及 A. Viola, Algorithmica 22 (1998),490~515;D.E. Knuth, Algo- 
rithmica 22 (1998),561 一 568。 这 里 所 计算 的 方差 应 同 总 方差 加 以 区 别 , 总 方差 是 


EDd3IN -地 (Qo(M,N -1) -1)2; 参 见习 题 37 和 67 的 答案 。) 


69. 设 Sh ye oh a ee qi 宇 max(0,1 一 (k | (NL n )/M ) 给 
同村 Cy pat = Re 


70. 由 Lueker 和 Molodowitch[Compinatorica 13 (1993),83 一 96] 给 出 的 一 个 特 
别 简单 的 证 明确 立 了 一 个 类 似 的 结果 但 在 O 的 上 限 中 有 一 个 额外 的 因子 
(log M)“: 通 过 使 用 更 准确 的 概率 估计 ,以 类 似 的 方式 可 得 出 所 述 结果 。A. Siegel 
和 J.P.Schmidt 已 经 证 明 , 事 实 上 ,在 双 伴 散 列 中 探查 的 预期 次 数 是 1/(1 一 a)+ 
O(1/M), 其 中 a= N/M。[Computer Science Tech. Report 687 (New York:Courant 
研究 所 ,1995)。| 

72.[J.Comp. Syst. Sci. 18 (1979),143 一 154。]1(a) 给 定 键 码 K,,…,K、y 和 K， 
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K; 和 在 同一 表 列 中 的 概率 是 ,如 果 KK 关 K;, 则 它 三 1/1M。 因 此 预期 的 表 列 大 小 
lI1+(N-1)M,。 

(b) 假设 有 Q 个 可 能 的 字符 ; 则 对 于 每 个 h; 有 Me 个 可 能 的 选择 。 随 机 选择 
每 个 h; 等 价 于 从 M% 行 和 Q’ 列 的 矩阵 玉 选择 一 随机 行 , 并 且 在 列 xz1… xz, 中 有 表 
项 h(zxitz)= (hi(ri)t hi(z))mod Mo。 在 列 K=zi…zxl 和 KK = …Z) 且 
对 于 菜 个 j, zj; 关 xz; 中 ,我 们 有 h(K)= (s+h(z))mod M 和 h(K)= (s+ 
h(x; ))mod M, 其 中 $s =>,y; hi(z;) 和 ss = ;zyjhi(xi) 同 无关。h; (x;) 一 
h;(z; ) 的 值 在 modulo M 之 下 一 致 分 布 ;因此 不 管 和 s 的 值 如 何 , 我 们 以 1/M 的 
概率 有 h(K)=h(K’)。 

(c) 是 的 ,加 上 一 个 第 数 到 hj;(zj) 使 h(x) 改变 一 个 第 数 modulo M。 

73.(i) 当 每 个 键 码 被 当 作 是 二 进位 的 而 非 字符 的 一 个 序列 时 [ 它 早 在 1970 年 
就 由 Alfred L. Zobrist 发 明了 。 他 原来 的 技术 报告 已 在 ICCA J. 13 (1990) ,69 一 73 
上 重新 发 表 ] ,这 是 习题 72(c) 的 特殊 情况 。(ii) (b) 的 证 明 表明 , 当 x 了 关 x/ 时 ,只 要 
证 明 hj;(z;) 一 h(xzi ) 是 一 致 的 modulo M 即 可 。 而 且 事 实 上 ,对 于 任何 给 定 的 y 和 
y ,h(xz;) 三 y 和 h(xi )=y 的 概率 是 1/M*, 因 为 对 于 任何 给 定 的 (y,y ) modulo 
素数 M , 同 余 式 ai + 6b; 硅 y 和 azi + 6b; 三 y 有 惟一 的 解 (aj ,6;)。 

当 M 不 是 素数 旦 p 是 一 个 > M 的 素数 时 ,如 果 我 们 令 hj;(zx;)=((ajzr; + 6;) 
mod p)mod M ,其 中 a; 和 64, 是 随机 地 选择 mod p 的 。 在 这 种 情况 下 这 个 族 系 不 是 
十 分 广泛 的 ,但 对 于 实用 目的 来 说 接近 于 足够 用 了 。 不 同 的 键 码 冲突 的 概率 至 多 是 
lIM+r(M-r)/Mp“ 二 1/1M + MI/4p“, 其 中 +=p mod M。 

74 一般 地 说 这 个 命题 为 假 。 例 如 ,假设 M = N = w?, 并 考虑 具有 | ”| 行 以 及 
在 不 同 的 列 中 各 以 不 同方 式 放 上 7 个 0 这样 一 个 矩阵 互 。 在 每 行 中 非 0 元素 从 左 


到 右 为 1,2,…,N ~ 1。 这 个 矩阵 是 通用 的 因为 在 每 对 的 列 中 有 | 人、 >)= (| 包 





2 
n < 人， 人 车 = RI/M 个 匹配 。 但 在 每 行 的 0 的 个 数 是 VN 关 0(1)+ O(N/ 


M)。 

注意 :本 习题 指出 , 当 插 入 一 个 新 键 码 时 ,预期 的 表 大 小 十 分 不 同 于 预期 的 冲突 
数 。 考 虑 命 h(xzi…z)=hi(zxi), 其 中 随机 选择 。 这 个 散 列 函数 族 使 每 个 表 的 
预期 大 小 为 N/M ;但 它 肯 定 不 是 通用 的 ,因为 有 相同 的 头 字 符 zi 的 N 个 键 码 的 集 
合 将 导致 大 小 为 NN 的 一 个 表 和 所 有 其 它 空 的 表 。 预 期 的 冲突 数 将 是 N (N - 1)/2， 
但 对 于 通用 的 散 列 族 , 这 个 数 至 多 是 N(N -1)/2M ,不 论 键 码 的 集合 如 何 。 

另 一 方面 ,我 们 可 以 证 明 在 一 个 通用 的 族 中 ,预期 的 每 个 表 的 大 小 是 O(1) + 


O(NIV M)。 假 设 在 行 h 中 有 wh 个 0。 于 是 这 行 至 少 包含 { > | 对 相等 的 元 素 。 当 
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每 个 等 于 时 ,在 DR1( 三 [，)RIM 的 条 件 下 ,zi 的 极 大 值 出 现 , 其 中 


2)= ja 
1 1 NN- 
M 


之 三 二 十 


了 D 1+- 


75.(a) 显然 正确 ,即使 h,,…,h, 恒 等 于 0。(b) 由 72(b) 的 答案 ,正确 。(c) 正 
确 。 如 果 KK,K 和 K” 全 都 在 某 个 字 符 位 置 中 不 同 , 则 结果 显然 。 否 则 ,说 x; = 
.Ti 7; 和 Xi 了 闫 Xp 二 xt。 则 量 h; (Zz; ) + h, (xz, ), h (Zz; ) 十 h,(x。) 和 和 h; (zx; ) 十 
hr( zx ) 古 彼此 无 关 、 一 致 分 布 的 ,而 且 也 和 这 些 键 码 的 其 它 / - 2 个 字符 无 关 。(d) 
假 的 。 考 虑 有 1 个 二 进位 字符 的 情况 M = 1 =2。 于 是 所 有 四 个 键 码 以 1/4 的 概率 
获 列 到 相同 的 位 置 - 

76 .使 用 h(K)= (ho(17) 十 hi(x1) 十 十 hi( x1))mod M ,其 中 每 个 h; 如 同 在 
习题 73 中 那样 选择 。 当 长 度 宇 ; 的 一 个 键 码 头 一 次 出 现时 ,对 于 h; 生成 随机 系数 
(而 且 如 采 愿 意 , 预 先 计算 它 的 值 的 阵列 )。 由 于 i 是 无 限 的 ,因而 矩阵 矿 是 无 穷 
的 。 但 是 在 程序 的 任何 特定 的 运行 中 仅仅 有 限 部 分 是 有 关 的 。 

77. 设 p 三 2 "是 在 肪 之 下 两 个 32 个 二 进位 键 码 有 相同 的 映像 的 概率 。 当 两 
个 给 定 的 键 码 在 它们 的 八 个 32 位 二 进位 子 键 码 的 七 个 上 一 致 时 , 则 出 现 最 坏 情 况 ; 
则 冲突 的 概率 是 1 一 (1 一 pp) <4po [参见 Wegman 和 Carter, J. Comp. Syst. Sci. 22 
(1981) ,265~279,| 
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1 .提示 中 所 描述 的 通路 可 以 这 样 来 加 以 转化 , 即 把 从 (i 一 1,j) 运 行 到 一 个 “新 
的 最 低 记 录 ” 的 值 (i,j; -1) 的 每 个 往 下 的 步骤 改变 成 一 个 往 上 的 步骤。 如 果 做 了 
个 这 样 的 修改 , 则 这 条 通路 在 (m,n 一 2zt+2c) 处 结束 ,其 中 c 宇 0 和 cc 宇 21 一 7; 
此 nn 一 2t+2c 宇 n -2&。 在 与 被 修改 的 通路 相对 应 的 排列 中 , 表 列 B 的 最 小 的 c 个 


元 素 对 应 于 被 修改 的 诸 向 下 步骤 ,而 表 列 A 包含 1 一 c 个 对 应 于 未 修改 的 诸 向 下 步 
又 。 


当 ;= 丰 时 ,不 难看 出 这 个 构造 是 可 道 的 ;因此 恰 丛 构造 了 |[” /个 排列 。 附带 地 


说 ,按照 这 个 证 明 , 表 列 A 和 C 的 内 容 可 以 以 任意 的 次 序 出 现 。 
注意 :我 们 已 经 在 习题 2.2.1-4 中 以 另 一 种 方式 计算 了 这 些 通 路 。 当 =|n/2| 


时 这 个 构造 证 明了 Sperner 引 理 ， 它 指出 ,不 可 能 有 |1,2…,n| 的 (| ,”，) 个 以 上 的 
子 集 , 使 得 这 些 子 集中 没有 一 个 被 包含 于 另 一 个 当中 。[ Emanuel Sperner, Math. 
Zeitschrift 27 (1928),544 一 548]。 因 为 ,如 果 我 们 有 这 样 一 个 子 集 的 集合 , 则 (个 
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排列 中 的 每 一 个 的 初始 位 置 上 至 多 可 以 出 现 这 些 子 集 之 一 ,但 每 个 子 集 又 应 出 现在 
某 个 排列 中 。 这 里 所 用 的 构造 是 一 个 更 为 一 般 的 构造 的 改头换面 的 形式 。N.G.de 
Bruijn C. van Ebbenhorst Tengbergen 和 D.KruyswijkLNieuw Archief voor Wiskunde 
(2)23 (1951) ,191 一 193] 通 过 这 个 构造 ,证 明了 Sperner 的 引 理 对 多 重 集合 的 推广 : 
“ 设 M 是 包含 有 nn 个 元 素 ( 计 算 了 多 重 性 的 ) 一 个 多 重 集合 。M 的 所 有 Ln/2j 个 元 
素 的 子 多 重 集合 的 全 体 ,是 使 得 没有 任何 子 多 重 集合 包含 在 另 一 个 当中 的 最 大 可 能 
的 这 种 集合 。" 例 如 , 当 M=ia,a,p,p,c,ci 时 ,最 大 的 这 样 的 集合 是 由 七 个 子 多 重 
伸 合 | 六 本 的 5 
这 将 对 应 于 六 个 属性 A; ,Bi,A,,B，,,A3,B; 的 七 种 排列 ,在 这 些 属性 中 ,所 有 涉及 
A; 的 询问 也 涉及 B,;。 进 一 步 的 评述 出 现在 C. Greene 和 DD.J.Kleitman 的 论文 ,J. 
Combinatorial A20 (1976) ,80 一 88 中 。 

2. 令 qj 为 对 一 些 记录 的 所 有 访问 的 表 列 ,这 些 记录 分 别 以 (i,j,&) 为 三 个 属 
性 的 值 ,并 假定 cuiij 是 三 个 表 列 a011 ;ai01 ;alo 之 最 短 者 。 则 一 个 极 小 长 度 的 表 列 
是 a00140114111410141004110411194011Q0100 然而 ,如 采 aoll1 古 空 空 的 ,而 且 C001， a010 或 
ai00 之 一 也 是 , 则 这 个 长 度 可 以 通过 删 去 a111 的 两 个 出 现 之 一 来 盎 短 LCACM 15 
(1972 ) ,802 一 808 j。 

3. (a) 茵 香 籽 和 /或 蜂蜜 ,可 能 同 豆 棕 和 /或 香精 组 合 。(b) 无 。 

4. 设 p, 是 询问 恰恰 涉及 上 个 二 进位 位 置 的 概率 , 且 Pb 是 在 一 个 随机 记录 中 给 

定 的 上 个 位 置 全 都 是 1 的 概率 。 则 答案 是 ,psP, 减 去 一 个 特定 的 记录 是 一 个 “真情 


报 "的 概率 ,后 者 是 | > 9/ 六) ,其中 N= [”)。 由 容 斥 原理 


= 


> 


其 中 f(n,k,r) 是 在 一 个 n 位 字段 中 ,选择 7 个 不 同 的 & 位 属性 码 的 可 能 的 数目 ， 


即 
(i 思 


r 


而 且 由 习题 1.3.3 一 26, 如 果 g=r， 
有 站 a 


/30 A 俯 


pie 站 On 


0 


注意 : :上 述 计算 的 更 一 般 的 形式 ,首先 是 由 G. Orosz 和 上 上. Takdcs 进行 的 , 见 丁 . 
of Documentation 12 (19$6) ,231 一 234。 均 值 2 1p, 容易 证 明 是 n(1 一 了 f(n--1,k， 
q)/f(n,k,q))。 另 一 个 假定 , 即 记 录 中 和 询问 中 的 随机 属性 代码 不 必 是 不 同 的 ,如 
同 在 Harrison 和 Bloom 的 技术 中 那样 ,可 以 通过 同样 的 方法 来 进行 分 析 , 并 置 (Ns Rs 
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站 =”) 。 当 参数 在 适当 的 范围 中 时 ,我 们 有 Ps (1 -ew")' 而 且 习 Pi 
Ve 

6.L(2)= 5 (pp 人 [因此 如 果 Li1(#) 必 
Niu 而 且 L2(t) 守 Nza ', 则 L(z) 守 NIN2a “oj 


a a 33 -> 1 -1] 之 
Be) D3 (LO) (2 


[ 注 :诸如 00xx 一 0,01xx 一 1,10xx 一 2,11xx 习 3 这 样 一 个 平凡 的 投影 映像 有 精 
糕 的 最 坏 情况 特性 ;但 它 有 一 个 较 好 的 平均 情况 ,因为 由 习题 得 出 工 (1)=3, 工 (2) 
3 

8.(a) 当 S00WSil 时 y 我 们 有 (D7 二 (SeiSi) fi.1 (C00) fi 
(805 因 册 六 (85 入 十 对 于 使 入 2 富 0y220 罚 半 各 于 人 的 所 有 :多 和 加 
(om 人 (0 一 1) 二 1(573 D1) 的 极 小 但 3 为 了 证 明 对 于 35 三 |:3/21 
和 si=Ls/2j], 出 现 极 小 值 ,我 们 可 对 mx 使 用 归纳 法 ,对 于 m=1 结果 是 显然 的 :给 定 
m2; 人 (5) 二 (sym=1) 和 入 (3) 三 f(sym 王 2)s 于 是 ,由 归纳 法 ;g,(50) 寺 
人 
有 
(| 82 | 2 gL sy /2 TW 
果 so 这 si+1, 我 们 有 | so/21+[『s1/2 1< 50, 除非 在 so=2k+1 和 ;1=2k 一 1 的 情况 
下 s 然而 ;在 后 一 种 情况 下 gy(30)+ 让 (0) tg-1(8) 宇 hb(2k+1)F21(2k) 和 
CR 

(b) 注 意 , 包 含 在 二 进 记 法 下 的 数 0,1,…,s 一 1 的 集合 S 有 如 下 性 质 ; SoU Si 
66 而且:S¢ 包 合 [ 30/2 | 个 元 亲 s 顺便 指出 ,二 此 得 出 > (2 0 了 计 | 半 (1 让 
TT 


10. (a) 必 有 二 ofz =1) 洒 宇 欧 组 ,出 是 六 必然 出 现在 它们 的 地 + 个 当中 。(b) 


因为 v 是 奇数 ,对 于 每 个 i 有 惟一 的 三 元 组 {x;,y;,z1, 所 以 S 容易 证 明 是 一 个 
Steiner 三 元 组 系统 。 在 K “中 不 出 现 的 对 偶 是 1 | Ne ， | ， ee 9 
(dd) 由 情况 忆 于 1 开始 3 应 用 操作 有 全 2 六 二 2 
v 阅 2v 十 1 即 得 不 具有 3k+2 形式 的 所 有 非 负 数 , 因 为 6& +(0,1,3,4) 诸 情况 分 别 
地 来 自 较 小 的 情况 3&+ (1,0,1,3)。 

顺便 指出 ,“Steiner 三 元 组 系统 "实际 不 应 该 取 Steiner 这 个 名 称 ,尽管 这 一 名 称 
在 文献 中 已 打上 深 深 的 烙印 。Steiner 的 论著 [Crelle 45 (1853) ,181 一 182 ] 出 现在 
Kirkman 的 论著 之 后 好 多 年 ,而 且 Felix Klein 已 经 指出 [Vorlesungen iiber die En- 

JI 
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twicklung der Math. im 19,Jahrhundert 1 (Springer,1926) ,128j] ,Steiner 在 他 的 晚年 
期 间 ,引用 了 英国 一 些 作 者 的 话 , 而 不 提 及 人 他们。 而 且 , 这 个 概念 已 经 出 现在 丁 
Plucker 著名 的 两 本 书 [System der analytischen Geometrie (1835) ,283 一 284 ,Theorie 
der algebraischen Curven (1839) ,24$ 一 247] 中 。 

11. 取 2v+1 个 对 象 上 的 Steiner 三 元 组 系统 。 称 诸 对 象 之 一 为 xz, 而且 以 这 样 
一 个 方式 来 命名 其 余 对 象 , 即 包含 z 的 三 元 组 是 1z ,zzijj; 删 去 这 些 三 元 组 。 

12. 对 于 0 委 &<14,1&,(&R+1l)mod 14,(k+4)mod 14,(k+6)mod 141, 其 中 
(R+7)mod 14 是 & 的 补 。[ 补 系统 是 所 谓 可 除 群 区 组 设计 的 特殊 情况 ;参见 Bose， 
Shrikhande 和 Bhattacharya ,Ann. Math. Statistics 24 (19$3) ,167 一 195。| 

14. 在 &-dz 树 中 删除 是 最 容易 的 (对 根 的 替换 可 以 在 大 约 O(N1 六) 步 之 内 
求 得 )。 在 四 叉 树 中 ,删除 似乎 要 求 重 新 构造 以 被 删除 的 节点 为 根 的 整 棵 子 树 ( 但 平 
均 说 来 这 个 子 树 仪 含 大 约 log NN 个 证 点 ) 在 邮局 树 中 ,删除 几乎 毫 无 希望 。 

16. 设 每 一 三 元 组 对 应 于 一 个 码 字 ,其 中 每 个 码 字 恰 有 三 个 1 的 二 进位 ,这 些 二 
进位 标识 对 应 的 三 元 组 的 元 素 。 如 果 wx ,oo, 忆 是 不 同 的 码 字 ,w 与 w 的 到 加 至 多 与 
u 有 两 个 公共 的 二 进位 1 ,因为 它 与 单个 的 vv 或 w 至 多 有 一 位 相同 。[ 类 似 地 ,从 阶 
为 v 的 四 元 组 系统 我 们 可 以 构造 v(wv 一 1)/12 个 码 字 ,它们 中 没有 一 个 被 包含 在 任 
何其 余 三 个 的 亚 加 当中 ,等 等 。 

17. (a) 设 对 于 1 委 & 委 2 ,co= bo, 设 c= 二 (如 果 54_1=0 则 x 否则 64),c_%=( 如 
宁 54-1 二 1 则 x* 否则 5)。 则 基本 查询 c _,…co…c 描述 秒 50…6, 的 内 容 。[ 因 此 
这 个 方案 是 组 合 散 列 的 一 个 特殊 情况 , 而且 它 的 平均 查询 时 间 匹 配 习题 8(b) 中 的 
下 限 。 

(b) 设 对 于 一 n 三 kn ,de=[ 二 进位 & 是 确定 的 ]。 对 于 1 委 & 委 2” ,我 们 可 以 
假定 4 _ ;三 di。 则 当 确 定 的 二 进位 全 为 0 时 ,出 现 被 考察 的 极 大 管 数 ,而 且 可 以 如 
下 水 可 和 守 它 ?时 YO15 公司 对 寺 W lo 证 (9) (0D My sd 


其 中 
ww- 


最 后 输出 z( 在 &=0 之 后 , 它 也 刚好 等 于 y)。 
我 们 如果 过 这 六 和 用 二 了 2 ae) 9 JR 于 是 如 末 人 央 评 
(zy ), 则 我 们 有 ,对 于 =0,1,2,(z,y)M2 二 (zy)Mo。 现 在 
(0 
(zy)MINMIMI= (Frsr + Frzys Fir2zr + Friy) 
(zy)MONMIM2 = (Fir2x + Fray, Fjr2t + Fry) 
因此 我 们 有 (z,y)MiM MIi 过 (zy)MzM Mo ,因为 2y 之 z。 而 且 类 似 地 (zy,y) 
MMiMi 生 (xz,;y)MoMiM,, 因 为 xz 宇 y。 由 此 得 出 , 当 对 于 1 志 k 志 nn ,4 ,+ dd, 过 
1 或 者 当 对 于 1 委 & 委 2 ,qd _i+ di 之 1 时 ,出 现 最 坏 情况 。 我 们 也 有 
es 


(oe SO he 

DD (Ta 

(x ,y)M,M = (gn 

Gay 
因此 ,最 坏 情 况 要 求 下 列 的 公 数 . 


2 如 果 0 达 1 过 nn [从 MOM 
2 如 果 < 1 .3 元 /2 | [从 赔 1 
222+1-: 如 果 [ 3n/2 | 过 f 之 2n [从 人 


[这 些 结果 实质 上 归功 于 W.A.Burkhard,BIT 16 (1976) ,13 一 31 ,在 太 Comp. Syst. 
Sci. 15 (1977) ,280 一 299 上 又 作 了 推广 ;但 Burkhard 从 ao…as, 到 65o…6, 的 更 复杂 
的 映射 ,如同 由 P.Dubost 和 JJ. 一 M. Trousse Report STAN 一 CS 一 75 一 511( 斯 坦 福 
大 学 ,1975) 所 建议 的 那样 ,这 里 已 作 了 简化 。] 

18.(a) 在 一 起 有 2”(m 一 nn) 个 * ,因此 有 2”n 个 数字 ,日 每 列 有 2”n/m 个 数 
字 。 在 每 列 中 的 半数 的 数字 必然 为 0。 因 此 2” i'n/m 是 一 个 整数 ,而 且 每 列 含 
(2” in/m)* 个 不 匹配 。 由 于 每 两 行 至 少 有 一 个 不 匹配 ,因此 我 们 必定 有 2”(2” 一 
1)/2 过 (27 in f/m) mo 

(b) 考虑 在 mx 一 n 个 特定 的 列 为 0 的 2” 个 mm 个 二 进位 的 数 。 这 些 中 的 一 半 有 
奇 校 验 。 在 任何 未 确定 的 列 中 有 * 的 一 行 覆 盖 的 奇数 和 偶数 一 样 多 。 

(c) x000, x 111,0*10,1x*x10,00x*x1,10x1,010 x ,110x*。 这 一 个 不 像 (13) 
那样 一 致 ,因为 像 x* 01* 这 样 的 查询 击 中 四 个 行 而 x*10* 仅仅 击 中 两 行 。 注 意 (13) 
有 循环 的 对 称 性 。 

(d) 通过 以 x x x < 来 代替 每 个 * ,以 头 四 行 的 任何 一 行 代替 每 个 0, 以 及 以 最 
后 四 行 的 任何 一 行 来 代替 每 个 1, 从 (13) 的 每 行 来 建立 4 个 行 。( 一 个 类 似 的 构造 
从 任何 ABD(m ,nn) 和 ABD(mm ,nn ) 构 造 一 个 ABD(mm ,nn )。 

(e) 给 定 一 个 ABD(16,9) ,我 们 可 以 以 这 样 一 种 方式 在 每 行 中 对 一 个 * 划 圈 ， 
即使 得 每 个 列 中 有 同样 多 的 圆圈 。 然 后 我 们 可 以 把 每 行 分 成 为 两 行 , 且 以 0 和 1 来 
代替 被 划 圈 的 元 素 。 为 了 证 明 这 样 的 划 圈 是 可 能 的 ,注意 每 列 的 星 号 可 以 被 任意 地 
划分 成 32 个 组 ,每 组 含 7 个 星 号 ;于 是 512 行 的 每 个 含 7 个 不 同 组 的 星 号 ,而 且 
32x16=512 个 组 ,每 组 出 现 于 7 个 不 同 的 行 中 。 定 理 7.5.1E(“ 结 婚 定理 ”) 现 在 保 
证 一 个 完全 匹配 的 存在 性 , 且 在 每 行 和 每 组 中 恰好 有 一 个 被 划 圈 的 元 素 。 

参考 文献 :R.L. Rivest, SICOMP $ (1976),19~50;A.E.Brouwer, Combina- 
torics, 由 Hajnal 和 Sos 主编 ,Collog Math. Soc. Jénos Bolyai 18 (1978) ,173 一 184。 对 
于 所 有 nn 宇 32,Brouwer 继续 证 明 ABD(2n ,nn ) 存 在 。 当 把 (13) 同 (15) 组 舍 在 一 起 
时 ,部 分 (d) 的 方法 ,也 产生 ABD(32,15)。 


19. 由 习题 8, 有 8 一 大 个 特定 二 进位 的 平均 数 是 | Rs 


ZI30: % 


人 


a eR NL 
7 

1,2.6,1.6,1)。 这 些 值 仅仅 稍微 高 于 32* 的 值 (32,20.7,13.5,8.7,5.7,3.7,2.4， 

1.5,1)。 最 坏 情 况 的 值 是 (32,22,18,15,11,8,4,2,1)。 


20.J.A.La Poutrel Disc. Math. 58 (1986) ,20$ 一 208] 证 明 , 当 > [”] 和 和 n>3 
时 ABD(m ,2”) 不 可 能 存在 ;因此 无 ABD(16,6) 存 在 。La Poutre 和 van Lint[ Util. 
Math. 31 (1987) ,219 一 225] 证 明 ,没有 ABD(10,5)。 利 用 习题 18 的 方法 ,从 一 个 
ABD(8,5) 或 ABD(4,3) ,我 们 得 到 一 个 ABD(8,6); 这 产生 出 若干 非 自 同 构 的 解 , 而 
且 附 加 的 ABD(8,6) 的 例子 也 存在 。( 除 了 平凡 的 ABD(5,5) 和 ABD(6,6) 之 外 ), 和 列 
下 的 仅 有 的 可 能 性 是 ,不 同 于 (15) 的 ABD(8,$) ,而 且 也 许 还 有 一 个 或 更 多 的 ABD 
(C126 7 


All right—I m glad we found it out detective fashion; 
I wouldn t give shucks for any other way. 

好 吧 一 我 很 离 兴 我 们 以 货 窒 的 方式 发 现 了 它 ， 

我 对 于 任何 其 它 的 次 径 也 将 不 会 放弃 。 

一 一 TOM SAWYER( 1884) 
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附录 A 数值 数量 表 


表 1 在 标准 子 程序 和 在 对 计算 机 程序 的 分 析 中 
经 党 使 用 的 数量 (到 小 数 点 后 40 位 ) 





35623 73095 16887 69807 85697 一 
08073 68877 74463 87236 69428+ 
79774 99789 91736 27623 54406+ 
76601 68379 88935 71833 37196 一 
10498 94873 72106 22835 05703 一 
95703 07408 16383 10958 83919 -- 
71150 02721 74999 47391 32930 -- 
71803 59945 72321 17656 80733 + 
22886 68109 52452 52570 46475— 
50929 94045 79914 36420 76011+ 
50408 88963 99246 89213 74266+ 
44819 03251 11289 60508 22944 一 
26535 89793 26433 50288 41972 -- 
32925 19943 92369 88612 71344+ 
98861 83790 77673 02872 40689+ 
44010 89358 44909 15113 53137 一 
38509 05516 81674 14518 27975+ 
85347 07747 56929 67764 41287 一 
79394 26400 52880 313758 5551934 
18284 59045 02874 66249 77372 十 
94411 71442 55237 46086 74458+ 
60989 30650 04274 00781 31803 + 
56649 01532 65120 40243 10422 一 
98858 49400 34273 05871 16473 一 
39887 49894 45868 63811 77203+ 
24179 90197 65041 17934 91696+ 
00307 38015 97696 73822 34616 + 
09848 07896 23023 29899 96226 一 
23058 68139 09366 97660 37323+ 
82543 15843 25740 86497 78979 一 
69031 59594 97381 44999 07650 一 
18250 59603 77389 36842 31352 一 
69212 35027 13226 719576 77422= 
29203 81664 24391 66946 94543 一 


Yr=T (1/2) = 


rT (1/3) = 
rT (2/3) = 


IO 


附录 A 数值 数量 表 





表 2 在 标准 子 程序 和 在 对 计算 机 程序 的 分 析 中 
经 常 使 用 的 数量 (到 八进制 45 位 ) 





























0.1= 0.0631% 63146 31463 14631 47463144 63146 31463 14631 46315— 
0.01= 0.00507 593418 17270 24365 60507 53412 17270 24365 60510— 
0.001= ,00040 61115 64570 65176 76355 .46448264 16254 02030 44672+ 


0.0001= 
0.00001 = 
0.000001 = 
0.0000001 = 
0.00000001 = 
0.000000001 = 
0.0000000001 = 
内 三 

\3 = 

V5= 

wT 

~2 = 

3 = 

4 = 

ln 2 = 

jn 3= 

ln 10= 

l/ln 2= 

l/ln 10= 


0 
0.00003 21556 13530 70414 S54512 75170 33021 15002 35223— 
0.00000 24761 32610 70664 36041 06077 17401 56063 34417 一 
0.00000 02061 57364 05536 66151 55323 07746 4hY70 26033 十 
0.00000 00153 27745 15274 59364 12741 72312 20354 02151+ 
0.00000 00012 57143 56106 04303 4747374 77341 01512 63327+ 
0.00000 00001 04560 27640 46655 12262 71426 740124 217h2+ 
0.00000 00000 06676 33766 35367 55653 37265 34642 01627 一 
1 .93246074 74631 77167 46220 42627 66115 46725 12575 17435 十 
1.56663 65641 30291 251693 54453 50265 60361 34073 42223 一 
2.17067 36334 57722 47602 57471 63003 00563 55620 32021 一 
3 ,12305 60786 64555 28224664 02248 57101 41466 33775 22532 十 
1.20505 05746 15345 053h2 10756 60653344 25574 22415 03024 十 
1.348233 50444 22175 73134 67363 76133 05334 31147 60121 一 
1.14067 74050 61556 12455 72152 64430 60271 02755 73136+ 
0 .54271 02775 75071 73638 57117 07316 30007 71366 536240 十 
1.06237 84752 55006 05227 32440 63065 25012 355S74 55337 十 
2.23273 06735 S252) 25405 56512 66548 56026 46050 50705 十 
1 .939342528 16684 $39405 77027 35750 37766 74060674 35175 043539 十 
0.33626 75425 11562 41614 52325 93939525 27655 14756 06220 一 
93.11037 S55248 10264 30215 14230 63050 56006 70163 21122+ 

1°=%/180 v0707Y Yad FN Ty REBUY SHRIG BI9IS E06 1 
0 
1 
1 
2 
1 
2 
0 
7 
0 
1 
1 
1 
2 
0 
0 
0 
1 
0 
2 
0 






二 







1/x = , 26276 30155 62344 20251 23760 47257 50765 15156 70067 一 
3 

-re L127) .61337 61106 64736 65247 47035 40510 15273 34470 17762— 
r(1/3)= .5939947 35234 51013 61316 73106 476JY 54653 00106 66046— 
.26523 57112 14154 749312 S4572 37655 60126 23231 .024752 十 
.55760 52130 50535 51246 $52773 42542 00471 72363 61661+ 
27426 53066 13167 46761 52726 75436 02440 52371 09355+ 
30714 45615 23355 33460 63507 35040 32664 25356 50217 十 
Lh7h2 14770 67666 06172 23215 74376 01002 51313 25521— 
,11206 64044743 47503 36413 65374 52661 52410 37511 46057+ 
.71933 57156 27751 23701 27634 71401 40271 
.61772 13452 61152 65761 22477 36553 
.T14275 
.65665 
,J2h50 
.74001 
.14735 
.36630 
,04776 
,27351 




































































66710 150710 十 
$93327 17554 21260+ 
16162 52370 35530 11342 $3525 44307 02171— 
OJ1h 73402 03067 29364h 11612 07474 14505 一 
50037 32406 42711 07022 14666 27320 70675 12321+ 
JS51hh 53259 42362 42107 23350 50074 46100 27706 十 
00023 60014 20470 15613 47482561 31715 10177 06066147 十 
26256 61213 01145 13700 4100h 52264 30700 40646 十 
60111 17144 41512 11436 16575 00355 43630 40651+ 
71233 67265 63650 17401 $6637 26334 31455 57005— 



























31512 
LJ36 

















































































注 :; = 号 左边 的 名 字 是 以 十 进 制 给 出 的 
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在 同 排序 和 查找 算法 的 分 析 相 关联 中 ,出 现 有 没有 普通 名 字 的 若干 有 趣 的 常 
数 。 在 等 式 5.2.3-(19) 和 6.5-(6) 以 及 在 习题 5.2.3-27,5.2.4-13,5.2.4-23,6.2.2- 
49,6.2.3-7,6.2.3-8,6.3-26 以 及 6.3-26 中 ,这 些 常 数 已 被 计算 到 小 数 点 后 面 40 
位 。 


表 3 对 于 小 的 n 和 值 的 调和 数 , 伯 努 利 数 以 及 非 波 那 契 数 的 值 


B, 


S 
S 


1 
2 
3/2 L176 
11/6 0 
25:/"12 -1/30 
137 /60 0 
49 /20 1/42 
363 / 140 0 
761 / 280 -1/30 
7129 / 2520 0 
7381 / 2520 5/66 
83711 / 27720 0 
86021 / 27720 -691 /2730 144 
1145993 / 360360 0 233 
1171733 / 360360 7/6 377 
1195757 / 360360 0 610 
2436559 / 720720 —3617/ 510 987 
42142223 / 12252240 0 1597 
14274301 / 4084080 43867 / 798 2584 
275295799 / 77597520 0 4181 
55835135 / 15519504 —174611 / 330 6765 
18858053 / 5173168 0 10946 
19093197 / 5173168 854513 / 138 17711 
444316699 / 118982864 0 28657 


‘© 0 A OO Wn 人 WW i 一 OO 
‘© 0 3 OO Wn 人 WW ~ OO 


天 
lam] 

一 

La 


DD DD DP 一 C5 一 5 一 一 一 
DD 一 OO ‘OO 0 7 OO Wn 上 ni ~ 
一 
Nn 人 ni 天 


性 
(人 


DD hb Dh 
OO Wn 人 


1347822955 / 356948592 
34052522467 / 8923714800 
34395742267 / 8923714800 


— 236364091 / 2730 
0 
8553103 /6 


46368 
75025 
121393 


[Be 
| 


312536252003 / 80313433200 0 196418 
315404588903 / 80313433200 — 23749461029 / 870 317811 
9227046511387 / 2329089562800 0 314229 
9304682830147 / 2329089562800 8615841276005 / 14322 832040 


DW DD DD 
OO ‘OO 0 
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对 于 任意 的 x, 设 HH, = > I 


站 

His = 3 — 广 rn/ V3 -了 ln3， 

Hzjs = 这 + 卫 /V3 - 方 In 3， 

Hi = 4 -7 -3ln2, 

Ha = 读 + 广 x 一 3ln 2， 

Hys = 5 一方 n$/25-14 -了 ns 一 村 V5ln ， 
Hys = 六 一 二 $325-14 一 二 In 5 + 方 VSln qh， 
Hays = 语 + 本 站 325-14 一 计 In 5 + 广 5ln 书 ， 
Hys = 二 + 了 re25-14 -二 ns 一 村 VS5ln +$, 
Hi6 =6- 二 r -2n2- 人 ln3， 

Ha6 = 二 + 二 rr -2In 2 一 这 In 3， 

而 且 ,一 般 地 , 当 0<p<g 时 (参见 习题 1.2.9-19)， 


H,i, = = 2 3 ee sin ono 


pb ln< g/l2 d 
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附录 B 符号 索引 


在 下 列 公式 中 ,未 被 进一步 定性 的 字母 有 如 下 的 意义 : 


.J] ， 


形式 符号 
VoE 
UV 


A, 或 ALn] 


k 


A 或 AL m1 3 n] 


NODE(P) 
F(P) 
CONTENTS(P) 
LOC(V) 
P<AVAIL 
AVAIL<=P 
top(S) 


X <S 











整数 值 算术 表达 式 

非 负 整数 值 表 达 式 

实数 值 算术 表达 式 

复数 值 算术 表达 式 

实数 值 或 复数 值 函 数 

指针 值 表达 式 ( 或 者 是 A, 或 者 是 一 个 计算 机 地 址 ) 
集合 或 多 重 集合 

符号 串 


咒 
xc 


把 表达 式 的 值 赋 给 变量 V 

交换 变量 U 和 V 的 值 

线性 数组 A 的 第 ”个 元 素 

矩形 数组 A 的 pi 行 n 列 的 元 素 

假定 P 隆 A, 其 地 址 为 P 的 节点 (由 它们 的 字段 名 个 别 地 区 分 的 变量 组 ) 
其 字段 名 为 F 的 NODE(P) 中 的 变量 

其 地 址 为 P 的 计算 机 字 的 内 容 

王 一 台 计算 机 内 变量 V 的 地 址 

把 指针 变量 P 的 值 置 成 一 个 新 节点 的 地 址 

把 NODE(P) 恢 复 成 自由 存储 ; 它 的 所 有 字段 失去 标识 

在 一 非 空 栈 S 顶部 的 节点 

把 S 弹 到 X: 即 置 X<top(S); 然 后 从 非 空 栈 S 删 去 top(S) 
把 X 压 入 栈 s; 把 值 x 插入 作为 栈 Ss 顶部 的 新 栈 元 

条 件 表达 式 :如 果 B 为 真 表 示 玉 ,B 为 假 为 EE 

条 件 B 的 特征 函数 (B 之 1;0) 

克 洛 涅 克 迭 塔 函数 [= 天] 

需 级 数 g(z) 中 z” 的 系数 

使 得 变量 是 一 个 整数 且 关 系 尺 (&) 为 真 的 所 有 f(k) 之 和 





定义 的 位 置 
1 


1. 


2 





1. 


1. 


1 


1 


1 


1 


.1 


附录 B 符号 索引 










形式 符号 意义 
| | f(#) “| 使 得 变量 有 是 一 个 整数 且 关 系 R(k) 为 真 的 所 有 FE) 之 积 1.2.3 


R(k) 








on 使 得 变量 & 是 一 个 整数 且 关 系 RR(&) 为 真 的 所 有 f(&) 之 极 小 值 [2 
maxf( 上 ) | 使 得 变量 是 一 个 整数 且 关 系 R(k) 为 真 的 所 有 /() 之 极 大 什 人 
无 发 呈 j 整除 &;k modj =0 且 六 >0 
SO 集合 的 差 :jala 在 S 中 旦 4 不 在 TT 中 | 












最 \ ee . 
gcd( j,k) 7 和 & 的 最 大 公 因 子 (j=& 0>0; max d) a 


i 7 与 上 和 互 素 :gcd(j,k)=1. 1 :24 
和 矩阵 数组 A 的 转 置 A'[),k]= A[k,j 
a 的 左右 颠倒 
7 的 y 次 方 ( 当 > 为 正 时 ) 


















的 上 次 方 ;(k 之 0 这 了 | x;11x) 
a 工 的 k 旭 阶 妆 3T(o 有 D(z2) (Ch20> IL (w(t) ") :2 
Xx 的 & 降 阶乘 :x! 人 


n 的 阶乘 :T(n+1)=n* 


二 项 式 系 数 (k<0 坟 0;xs/k1!) 







多 项 式 系数 ( 仅 当 n=n1+n2+… + n, 时 才 有 定义 ) 






第 一 类 斯 特 林 数 : 
0<Al<A < < 


= 


2 












第 二 类 斯 特 林 数 : pb» Rik kk, , 
1 


kk 


之 之 上 Eee 


2 和 
使 得 关系 R(a) 为 真 的 所 有 a 的 集合 
集合 或 多 重 集 合 ijal |1 夺 kn 
分 数 部 分 (用 于 上 下 文中 , 指 的 是 一 个 实数 值 而 非 集合 ):x 一 Lxj 
团 区 间 jzla 委 >z 委 0| 





. .0 或 La ,oj 
人 
bl) 
..b0] 或 (a ,0] 





开 区 间 | 光 | 在 之 二 这 本 
半 开 区 间 ;ixla 达 x 之 651 








半 闭 区 间 ;:ijx|a<zx< bi 


附录 只 


符号 索引 





形式 符号 
S 
| J 
1 











2 mod v 


7 三 x (modulo y) 


O(f(n)) 
O( f(z)) 
Qf(n)) 
Q(f(n)) 
logprz 
Inz 
lgx 
expz 
(X,) 
f(x) 
f (x) 
f' (xz) 


HH 


H 


nH 


F 


2 


B, 

det( A) 

sign( zx) 
CX) 
L(x) 


Y(2,y) 





让 
xc 














基数 :集合 S 中 的 元 素 个 数 

x 的 绝对 值 :(x 宇 0 地 x; 一 过) 

a 的 长 度 

x 的 地 板 , 即 最 大 整数 函数 :maxk< 
的 天 花 板 , 即 最 小 整数 函数 :mins> , 
mod 荫 数 :(vy=0 字 x;x -vlLx/yj) 
同 余 关 系 ,x mod y= x mod y 

当 nn 一 时,f(n) 的 大 OO 

当 z 习 0 时 ,f(z) 的 大 O 

当 n 习 时 ,f(n) 的 大 上 Q 

当 7 一 co 时 ,六 2) 的 大 


( 当 >0,2>0 和 2 天 1 时 )xz 的 以 2 为 底 的 对 数 ,使 得 x = 全. 


自然 对 数 :log。 x 

二 进 制 对 数 log， x 

的 指数 :e 

无 穷 序 列 Xu, Xi,X2,…( 这 里 字母 n 是 符号 的 一 部 分 ) 
f 在 x 处 的 导数 

f 在 x 处 的 二 阶 导数 

nn 阶 导 数 :(n=0 之 f(x);g (x)), 其 中 g(x)= ff D(x) 
阶 数 为 x 的 调和 数 > Uk 


ey 
洞 和 数 : 昌 W 

斐 波 那 契 数 :(7r 近 IF +E 
贝 努 利 数 :n! [sj]z 作 e 一 1) 

正方 矩阵 A 的 行列 式 

x 的 符号 :[x>0] [x<0] 

大 塔 函数 :lim, .ws 晶 ("( 当 x>1 时) 
伽 玛 函数 ,(x -1)! = y(x,%) 


不 完备 的 伽 芭 函数: | ee id 


欧 拉 常 数 :lin (五 ,一 In7) 


自然 对 数 的 底 ; ,zo0lfn1 
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Np 
[Be 
EY 
EY 
挛 一 


-一 
[Ne 
EN 
J 
EN 


ee 
[Ne 
ee 
关 一 
ee 


-一 
。 

ID 
产 一 
-一 
-一 


[we 
天 一 
J 
[we 


et 
MD 
一 
Ne 





| ”形式 符号 
A 
A 
0 
中 


Pit.S( XY 
EX 
mean(g) 
var( g) 


(min riyave ZX;, 


max Zaydev x4) 


人 


Se 
aTh 
ST 

el 





附录 电 





国 同 衬 寺 0( = 1 (2m l) 
无 穷 大 : 比 任何 数 都 大 

空 链 ( 指 向 空地 址 的 指针 ) 
空 串 (长 度 为 0 的 串 ) 

空 集 ( 没 有 元 素 的 集合 ) 

黄金 比 :地 (1 tS) 


欧 拉 的 个 数 函 数 ;，》，[k | 


WR 
交 旭 似 邮 等 于 汉 

对 于 X 的 随机 值 ,命题 S(X) 为 真 的 概率 
XR 

由 生成 函数 g 表示 的 概率 分 布 的 平均 值 g (1) 

由 生成 国 数 g 表示 的 概率 分 布 的 方差 :g (1)+g (1)-g (1)? 





有 极 小 值 x 1, 平均 (期 望 值 )x;, 极 大 值 x;, 标 准 差 xs 的 一 个 随机 变量 


z 的 实 译 

z 的 虚 部 

复 共 入 及 > 二。 

6b 进 制 位 置 记 数 符号 : >) ax 0 
El (a 
相互 穿插 的 积 

多 重 集 合 的 和 ;例如 |a,bila,c|=1a,a,b,c| 
中 数 的 增长 : f(5) 一 f(a) 

算法 ,程序 或 证 明 的 结束 

一 个 空格 

MIX 的 寄存 器 A( 累 加 器 ) 

MIX 的 寄存 器 X( 扩 充 ) 

MIX 的 ( 变 址 ) 寄 存 器 

MIX 的 (跳跃 ) 寄 存 器 


MIX 的 字 的 部 分 字段 0 二 LR<5 


符号 索引 


( 续 ) 


定义 的 位 置 
| 

















附录 B 符号 索引 


形式 符号 


OP ADDRESS,I(F) |MIX 令 的 记号 


MIX 中 的 时 间 单 位 


MIXAL 中 的 “自身 ” 
OF ,1F,2F,…. MIXAL 中 的 “向 前 ”局 部 符号 
0B 1B. 0B, a MIXAL 中 的 “向 后 "局 部 符号 


OH, 1H, 2H, MIXAL 中 的 “这 里 "局 部 符号 
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人 名 和 术语 中 英 对 照 表 


-oo - oo 负 无 穷 大 


1/3 一 2/3 conjecture 1/3 - 2/3 猜测 
2-3 trees 2-3 又 树 
(2,4) 一 trees (2,4) 树 


2-d trees 2-d 树 
2-descending sequence 2 递减 序列 
2-ordered permutations 2 有 序 排列 
80-20 rule 80-20 定律 
co % 无 穷 大 
as sentinel ”无穷大 作为 标记 
“(圆周率 ) 
(golden ratio) ,xiv 中 (黄金 分 割 比 ) 
(a,b) 树 
Abbreviated keys 缩写 的 键 码 
Abel, Niels Henrik ,binomial formula 
“ 享 里 克 二 项 式 公 式 
limit theorem” 阿 贝尔 极限 定理 
Abraham ,Chacko Thakadiparambil 
` 塔 卡 迪 帕 拉 姆 比尔 
吸收 定律 
Adaptive sorting ” 适 配 性 排序 


Addition of apples to oranges 


nl(circle ratio) 


(a,b)-trees 


阿 贝尔 ` 尼 和 尔 斯 


阿布 拉 罕 , 查 死 戈 


Absorption laws 


苹果 和 本子 相 加 

多 项 式 加 法 

加 到 一 个 表 中 , 见 Insertion 

Address calculation sorting 地址 计算 排序 

Address table sorting 地址 表 排 序 

Adelson-Velsky, Georgii Maximovich 阿 德 尔 森 - 维 
尔 斯 基 ,乔治 .马克 西 莫 维 奇 

相 邻 转 置 


Addition of polynomials 


Addition to a list 


Adjacent transpositions 
Adversaries 对手 
AF-heaps AF- 堆 
Agarwal, Ramesh Chandra 阿 加 尔 瓦 尔 ， 拉 米 斯 . 钱 
德 拉 
Agenda, 见 Priority queue 


日 程 表 
Aggarwal,Alok 阿 加 尔 瓦尔 , 阿 罗 克 


Aho ,Alfred Vaino 阿 霍 ,阿尔 弗 雷 德 : 维 诺 
Aigner, Martin 埃 泽 纳 尔 ,马丁 
Ajtai,Mikles 阿 伊 泰 , 米 克 洛斯 
al-Khwarizmi, Abu “Abd Alluah Muhammad ibn Musa 
阿尔 - 科 瓦 里 效 末 ,阿布 ' 阿 布 德 `' 阿 拉 ' 称 哈 默 德 ， 
伊 本 ' 稳 陕 
Aldous ,David John 





阿尔 多 斯 , 戴 维 ' 约 朝 
阿 历 克 谢 耶 夫 ， 





Alekseev, Vladimir Evgenievich 
弗 拉 基 米尔 ' 叶 南 根 尼 维 奇 
阿 历 山 德 森 , 杰 拉 德 李 
AIGOL ”一 一 ALGOL( 程 序 语言 
Algorithms,analysis of 算法 分 析 , 见 Analysis 
comparison of 算法 的 比较 , 见 Comparison 
proof of ,算法 的 证 明 , 见 Proof 
Allen ,Brian Richard 艾 伦 , 布 里 安 . 理 查 德 
Allen ,Charles Grant Blairfindie 艾 伦 ,查尔斯 .格兰特 
' 布 赖 尔 耸 迪 
Alphabetic binary encoding 字母 二 进 制 编码 
Alphabetic order 字母 顺序 
阿尔 登 卡 姆 普 ,多 利 斯 
Alternation runs ”交错 路 段 
Amble,Ole 安 布 , 奥 利 
Amdahl,Gene Myron 阿 姆 达 尔 , 洁 恩 :' 迈 伦 
美国 图 书馆 学 会 


Alexanderson ,Gerald Lee 


Altenkamp , Doris 


American Library Association rules 
规则 

AMM: American Mathematical Monthly, published by 
the Mathematical Association of America since 
1894.， 自 1894 年 以 来 由 美国 数学 协会 出 版 的 
美国 数学 月 刊 

平 推 的 费用 

两 端 有 头 的 排序 

Anagrams, 变异 字 ,也 见 Permutations of a multiset. 


算法 分 析 也 见 Complexity 


Amortized cost 


Amphisbaenic sort 


Analysis of algorithms 
analysis 


Analytical Engine 分 析 机 


/47 ， 


人 名 和 术语 中 英 对 照 





AND (bitwise and) 与 ( 按 二 进位 进行 的 与 运算 ) 
André, Antoine Désiré 安 德 烈 , 安 托 万 . 德 席 里 
Anti-stable sorting 反 稳 定 排 序 

Antisymmetric function 反对 称 函 数 

阿 鲁 约 加 德 瓦 拉 - 苏 特 拉 

阿波 洛 尼 厄 斯 


Anuyogadvara-sutra 

Apollonius Sophista, son of Archibius 
索 非 斯 塔 , 阿 奇 比 尤 斯 的 儿子 

Appell, Paul Emile 阿 普 培 尔 ,保罗 ' 埃 迈 勒 

Approximate equality 近似 相等 

Aragon ,Cecilia Rodriguez 阿拉 贡 , 塞 西 莉 亚 ' 罗 德里 
格 兹 

Archimedes of Syracuse 赛 拉 古 斯 的 阿 基 米 德 

阿 基 米 德 的 立体 

Arge,Lars Allan 阿尔 基 . 拉 斯 '. 艾 伦 

目 变量 

有 泽 诚 

Arithmetic overflow 算术 溢出 

算术 级 数 

阿姆斯特朗 : 非 利 普 . 奈 

Arora,Sant Ram 阿 罗 拉 :又 特 . 拉 姆 

阿尔 帕 西 - 德 西 奥 , 安 


solids 


Argument 


Arisawa, Makoto 


Arithmetic progressions 


Armstrong, Philip Nye 


Arpaci-Dusseau, Andrea Carol 
德 烈 ' 卡 洛 尔 

Arpaci-Dusseau,Remzi Hussein 
米 古 :明和 森 

Ascents 递增 

Ashenhurst, Robert Lovett 
维特 

Askey, Richard Allen 


阿尔 帕 西 - 德 西 奥 , 里 


阿 申 赫 斯 特 , 罗 伯 特 : 洛 


阿 斯 基 , 理 查 德 . 阿 伦 
结合 的 斯 特 林 数 
结 日 合 的 区 组 设计 


Associated Stirling numbers 
Assocative block designs 
Associative law ”结合 律 
联想 存储 
渐 近 方法 
limits of applicability 渐 近 方法 应 用 的 极限 
Attitude ”态度 
Attributes 属性 
二 进 制 属性 
compound 复合 属性 
auf der Heide, 奥 弗 . 德 .海德 , 见 


Associative memories 


Asymptotic methods 


binary 


见 Meyer auf der Heide 
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Automatic programming ”自动 程序 设计 
AVL trees,459,AVL 树 见 Balanced trees 
Avni,Haim 艾 夫 尼 . 海 伊 姆 


B-trees ”B- 树 
Bi -trees Bi' 树 
B*-trees B* 树 


巴 贝 奇 ,查尔斯 

巴 介 ,罗伯特 :劳伦斯 
Babylonian mathematics 巴比伦 的 数学 
Bachrach ,Ran 巴赫 拉 奇 , 兰 

Backward reading ”向 后 


Babbage, Charles 


Baber, Robert Laurence 


读 , 见 Read-backward 
Baeza-Yates,Ricardo Alberto 巴 伊 扎 - 雅 特 斯 ,里 加 多 
“阿尔 贝 托 
Bafna, Vineet 巴 甫 纳 ,维尼 特 
Bailey, Norman Thomas John 


翰 


Balance factor 


贝 利 , 诺 曼 .托马斯 ' 约 


平衡 因子 

Balanced filing 平衡 文件 

Balanced incomplete block desigm 平衡 的 不 完备 区 组 
设计 

Balanced merging 平衡 合并 

with rewind overlap 通过 重 绕 重 迭 的 平衡 合并 

Balanced radix sorting 平衡 的 基数 排序 

平衡 树 

weight-balanced ” 权 平 衡 的 平衡 树 

平衡 二 叉 树 

Balancing a k-d tree 平衡 k-d 树 

Balbine,Guy de 巴尔 拜 因 , 黄 伊 ' 笛 

Ball, Walter William Rouse 饮 尔 ,沃尔特 威廉. 劳 斯 

投票 问题 

Barnett ,John Keith Ross 巴 尼 特 , 约 其 :基因 .罗斯 

Barton ,David Elliott 巴顿 , 戴 维 .' 埃 里 奥 特 

Barve, Rakesh Dilip 巴尔 维 , 卡 基 恩 : 迪 里 普 

重 中 心 坐 标 


Balaced trees 


Balancing a binary tree 


Ballot problem 


Barycentric coordinates 
Basic query 基本 查询 
Batcher ,Kenneth Edward 巴 切 尔 , 肯 尼 轧 
Batching 分 批 

Baudet,Gerard 鲍 德 特 , 杰 勒 德 

Bayer, Paul Joseph 拜 尔 ,保罗 .约瑟夫 


Bayer, Rudolf 拜 尔 , 鲁 道夫 
贝斯 , 安 托 尼 : 约 翰 
Bell,Colin James 贝尔 , 科 林 : 人 詹姆斯 
Bell, David Arthur 贝尔 , 戴 维 . 阿 巧 
ell ,James Richard 贝尔 ,詹姆斯 ' 理 查 德 
贝尔 曼 , 理 查 德 : 欧 内 斯 


Bayes, Anthony John 


Bellman, Richard Ernest,ix. 


特 
Ben-Amram,Amir Mordechai 本 ': 安 姆 兰 姆 , 阿 米 尔 : 
莫 德 才 


本 彻 ,丹尼斯 . 利 奥 

水 准 基点 

Bender,Edward Anton 本 德 ,爱德华 . 安 东 

贝 内 特 , 布 顿 恩 ' 托 马 斯 
贝 内 特 , 马 里 :卡特 赖 尼 

本 特 , 院 称 尔 ' 沃 特 金 斯 
本 特 利 , 琼 路易 斯 

贝克 利 ,乔治 

Berman ,Joel David 贝尔 曼 , 乔 尔 ' 戴 维 

伯 纳 斯 . 李 


Bencher, Dennis Leo 


Benchmarks 


Bennett, Brian Thomas 

Bennett, Mary Katherine 

Bent,Samuel Watkins 

Bentley , Jon Louis 

Berkeley , George 

Berners-Lee, Conway Maurice , 康 韦 .英里 
斯 

Bernoulli, Jacques( = Jakob = James) 
(== 雅 可 尼 = 詹姆斯) 

贝 努 利 数 


numbers, calculation of 


贝 努 利 , 雅 各 斯 


numbers 

贝 努 利 数 的 计算 

Berra,Lawrence Peter Yogi” 贝尔 拉 , 劳 伦 斯 .彼得 
“ 约 基 ?” 

Bertrand ,Joseph Louis Francois 
路 易 斯 ' 法 兰 索 伊 斯 

按 "最 好 的 适合 ”分配 

最 好 的 

Beta distribution 8B 分 布 

Betz,B.K. 贝 效 ,B.K 

Beus, Hiram Lynn 贝 尤 斯 , 希 兰 姆 . 林 尼 

Bhaskara Acharya 巴 斯 卡 拉 ' 阿 查 里 亚 

Bhattacharya, Kailash Nath 巴 塔 查 利 亚 , 凯 拉 斯 ' 纳 
塞 


Biased trees 


贝 特 兰 德 ,约瑟夫 ， 


Best-fit allocation 


Best possible 


偏 倚 树 
Bienayme, Irenke Jules” 比 奈 米 , 芯 琳 ' 朱 尔 斯 
比尔 奇 , 安 布 罗斯 . 格 威 内 


Blerce, Ambrose Gwinnett 


特 


人 名 和 术语 中 英 对 照 


BINAC computer BINAC( 比 纳 克 ) 计 算 机 
Binary attributes 二 进 属性 
Binary computers ”二进制 计算 机 
Binary insertion sort ”二 进 插入 排序 
Binary merging 二进制 合并 
Binary quicksort 二 尺 快速 排序 , 见 Radix exchange 
Binary search 二 分 查找 
uniform 一 致 二 分 查找 
Binary search trees ”二 分 查找 树 


optimum ”最 优 二 分 查找 树 
悲观 的 二 分 查找 树 


Binary tree: Either empty, or a root 


pessimum 
二 叉 树 :或 者 为 
空 ,或 者 有 一 个 根 节点 和 它 的 左 二 叉子 树 和 右 二 
叉子 树 ,也 见 Complete binary tree, 上 Extended bi- 
nary tree. 

二 又 树 的 枚 举 

三 重 链接 的 二 又 树 

二 叉 检索 结构 的 查找 

二 项 式 系 数 

二 项 式 概率 分 布 


enumeration 
triply linked 
Binary tries 
Binomial coefficients 
Binomial probability distribution 
二 项 式 队 
二 项 式 转换 
Biquinary number system ” 双 五 进 制 
Birkhoff ,Garrett 毕 克 和 霍 夫 ,加 里 特 
生日 诗 论 
二 分 法 , 见 Binary search 
BIT:Nordisk Tidskrift for Informations-Behandling, an 


Binomial queues 


Binomial transforms 


Birthday paradox 


Bisection 


international journal published in Scandinavia since 


1961 杂志 名 称 的 缩写 。1961 年 以 来 在 科 堪 德 


纳 维 亚 出 版 的 国际 期 刊 
Bit strings ”二 进位 串 
Bit vectors ”二 进 向 量 


毕 特 纳 ,詹姆斯 理 查 德 

双 调 序列 

双 调 排序 程序 

Bits of information ”信息 的 二 进位 

Bitwise and 按 二 进位 的 与 运算 

布 约 纳 , 安 德 斯 
布 拉 克 , 伊 安 .上 弗 雷 泽 
空格 的 代数 


Bitner, James Richard 
Bitonic sequence 


Bitonic sorter 


Bijorner ,Anders 
Blake ,Jan Fraser 


Blanks,algebra of 
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人 名 和 术语 中 英 对 照 表 





Bleier, Robert E. 布莱尔 :罗伯特 :下 


Block designs 区 组 设计 


Blocks of records 记录 的 块 区 
on disk 盘 上 的 块 区 
on tape 带 上 的 块 区 


Bloom,Burton H. 布 鲁 姆 , 伯 顿 'H 

布 鲁 姆 , 曼 纽 尔 

波 亚 斯 , 彼 特 ' 范 ' 艾 姆 德 

Boehme McGra ,Elaine M. 贝 姆 : 左 格 劳 , 伊 莱 
恩 .M 


Blum, Manuel 


Boas, Peter van Emde 


博 尔 纳 , 赫 尔 曼 
波 洛 巴 斯 , 贝 拉 


Boerner, Hermann 


Bollobés, Béla 


Book of Creation” 创 世 说 
Boolean queries 布尔 查询 


Booth Andrew Donald 布 恩 ,安德鲁 :唐纳德 
Boothroyd,John 布 恩 罗 伊 德 ,约翰 
Borwein, Peter Benjamin 博 尔 威 因 ,彼得 .本 杰 明 
Bose,Raj Chandra ” 博 斯 , 拉 伊 . 钱 德 拉 
Bostic,Keith 博 斯 蒂 克 ,基因 
Bottenbruch, Hermann 伯 登 布 鲁 效 , 赫 尔 受 
Bouricius, Willard Gail 布 里 西 尤 斯 , 威 拉 德 . 盖 尔 
Bourne,Charles Percy 查尔斯 . 班 西 
Brandwood,Leonard 布 兰 德 伍 德 , 里 昂 拉 德 
布朗 ,巴巴 拉 ' 西 维 拉 
雷 奥 , 南 希 ' 安 ' 埃 里 希 
布 伦 特 , 理 查 德 ' 佩 西 
Briandais, René Edward de la 布 廉 戴 斯 , 雷 内 : 爱 德 
华 ' 笛 . 拉 

Brouwer ,Andries Evert 
布 基 ,约翰 
Brown,Mark Robbin 布 朋 ,马克 * 罗 宾 
布朗 , 兰 迪 ' 李 
布 明 ,威廉 .斯 坦 利 
布 鲁 哈 特 , 弗 朗 索 斯 顺序 

weak 弱 布 鲁 哈 特 顺序 
Bruijn, Nicolaas Govert de 

第 

Bryce,James Wares 布 菜 斯 ,詹姆斯 ` 沃 里 斯 
Bubble sort 气泡 排序 

multihead 多头 气泡 排序 
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Brawn, Barbara Severa 
Breaux, Nancy Ann Eleser 


Brent, Richard Peirce 


布 劳 维尔 , 安 德 里 斯 * 埃 弗 特 


Brown , John 


Brown, Randy Lee 
Brown, William Stanley 


Bruhat, Franccois ,order 


布 鲁 因 ,尼古拉斯 ' 哥 威 特 


Buchholz, Werner 
Buchsbaum ,Adam Louis 
Bucket sorting ” 桶 排序 
Buckets 桶 

Buffering 缓冲 


size of buffers 


布 幸 霍 尔 效 , 维 纳 
布 赫 斯 保姆 , 阿 当 路 易 斯 


缓冲 区 的 大 小 
Bulk memory 海量 存储 , 见 Disk storage 
伯 奇 ,威廉 : 赫 伯 特 
巴克 哈 德 ,沃尔特 "奥斯汀 
伯 顿 ,罗伯特 
Butterfly network ”蝴蝶 网 络 


Burge, William Herbert 
Burkhard, Walter Austin 


Burton ,Robert , v. 


C C 程 序 语言 
Cache memory 高 速 缓冲 存储 
CACM: Communications of the ACM, a publication of 
the Association for Computing Machinery since 
1958 自 1958 年 以 来 美国 计算 机 器 协会 的 一 种 
出 版 物 
Calendar queues 日 历 队 
消去 律 
Canfield, Earl Rodney 坎 菲 尔 德 , 厄 尔 : 洛 德 尼 
Cards 卡片 ,也 见 Playing cards 
edge-notched ” 边 带 权 口 的 卡片 
特征 卡片 
machines for sorting 用 于 对 卡片 排序 的 机 器 
Carlitz,Leonard 卡 里 茨 , 伦 纳 德 
卡 伦 ,雅克 


Cancellation laws 


feature 


Caron ,Jacques 
Carries ”进位 
Carroll, Lewis( = Dodgson, Charles Lutwidge) 卡 罗 
尔 ,刘易斯 (= 道奇 森 , 查 尔 斯 * 勒 特 威 奇 ) 

卡特 ,约翰 :劳伦斯 

卡特 ,威廉 . 卡 斯 威 尔 
笛 卡 儿 树 
级 联合 并 
read-backward 癌 后 读 级 联合 并 
with .rewind overlap 通过 重 统 重 迭 的 级 联合 并 
级 联 树 


Cascading pseudo-radix sort 


Carter, John Lawrence 
Carter, William Caswell 
Cartesian trees 


Cascade merge 


Cascade numbers 
级 联 虚 拟 基 数 排 序 
卡 塔 兰 , 尤 金 查 尔 


Catalan ,Eugene Charles ,numbers 


斯 数 





连接 查找 

Cawdrey( = Cawdry = ) , Robert 
利 ) ,罗伯特 

Cayley, Arthur 凯 莱 , 阿 瑟 

Celis Villegas, Pedro 塞 利 斯 . 维 利加 斯 ,人 披 得 罗 

Cells 单元 

人 口 调查 ,人 口 普 查 

基 扎 里 , 伊 维 斯 

Chaining ”链接 


to reduce seek time 


Catenated search 


考 德 雷 伊 (= 考 德 


Census 


Césari, Yves 


链接 来 减少 查找 时 间 
查 克拉 瓦 蒂 . 格 鲁 戈 文 德 
钱 德 拉 , 艾 舒 克 ' 库 马尔 


Chakravarti, Gurugovinda 
Chandra, Ashok Kumar 
Chang,Shi-Kuo 张 系 国 
Chartres, Bruce Aylwin 查 特 斯 ,布鲁斯 : 艾 尔 温 
Chase,Stephen Martin 蒙 斯 ,斯蒂芬 :马丁 
Chazelle, Bernard Marie 查 泽 勒 , 见 尔 纳 德 马 里 
Chebyshev, Pafnutii Lvovich 契 比 雪夫 , 帕 夫 纳 带 勒 
沃 维 茨 
polynomials” 契 比 雪夫 多 项 式 
Chen, Wen-Chin 陈 文 进 
Cherkassky, Boris Vasilievich ”和 契 尔 卡 斯 基 , 博 里 斯 ， 
瓦 西 里 耶 维 奇 
Chessboard 棋盘 
Choice of data Structure 
Chow,David Kuo-kien 周 , 戴 维 ' 国 权 
Christen ,Claude Andre 克 里 斯 登 , 克 劳 德 * 安 德里 
Chronological order 年 代 顺 序 
Chung,Fan Rong King 钟 金 芳 等 
Chung,Moon Jung ” 郑 文 杭 
Church,Randolph 丘 奇 , 伦 道夫 
CI:MIX 的 比较 指示 


数据 结构 的 选择 


CI:MIX’s comparison indicator 
ER 

Cichelli, Richard James 

循环 表 

克 劳 森 , 托 马 斯 

克 里 夫 ,约翰 : 珀 西 所 尔 

克 莱 门 特 , 朱 利 恩 ' 斯 蒂 分 


西 彻 里 , 理 查 德 : 詹 姆 斯 
Circular lists 
Clausen, Thomas 
Cleave, John Percival 
Clément, Julien Stephane 
Cliques 集团 

Closest match,search for 查找 最 接近 的 匹配 

CMath: Concrete Mathematics ,a book by R. L. Gra- 


人 名 和 术语 中 英 对 照 


ham,D. E. Knuth, and O. Patashnik. 由 R.L. 
Graham 和 DD.E.Knuth 和 O. Patashnik 合 著 的 一 
本 专著 
CMPA(compare rA) CMPA( 和 rrA 比较 ) 指 令 
Coalesced chaining ”接合 链接 
COBOL COBOL 程序 语言 
Cocktail-shaker sort ” 鸡 尾 混合 排序 
Codes for difficulty of exercises, xi. 
Coffman, Edward Grady,Jr. 
蒂 
Coldrick ,David Blair 科 德 里 克 , 戴 维 ' 布 莱 尔 
Cole,Richard John ” 科 林 ,安德鲁 :约翰 ' 西 奥 多 
Colin, Anrew John Theodore 科勒 , 理 查 德 . 约 翰 
Collating 整理 , 见 Merging 
整理 序列 
冲突 的 解决 
Column sorting 列 的 排序 
组 合 散 列 
组 合 数 系 
交换 律 
Comp, J.: The Computer Journal, a publication of the 
自 1958 年 


习题 难度 的 编码 
小 科 夫 曼 ,爱德华 格拉 


Collating sequence 


Collision resolution 


Combinatorial hashing 
Combinatorial number system 
Comer, Douglas Earl 


Commutative laws 


British Computer Society since 1938 

以 来 由 美国 计算 机 学 会 出 版 的 刊物 

比较 模块 

比较 计数 排序 

比较 -交换 树 

比较 矩阵 

算法 比较 

键 码 比 较 

minimizing ” 极 小 化 键 码 的 比较 

multiprecision 多 精度 键 码 的 比较 

并 行 的 键 码 比较 

searching by 通过 键 码 比较 进行 查找 

通过 键 码 比较 进行 排序 

比较 树 

编译 程序 技术 
补 码 记号 

互补 树 


Complemented block designs 


Comparator modules 
Comparison counting sort 
Comparison-exchange tree 
Comparison matrix 
Comparison of algorithms 


Comparison of keys 


parallel 


sorting by 
Comparison trees 
Compiler techniques 
Complement notations 


Complementary pairs 
互补 区 组 设计 
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人 名 和 术语 中 英 对 照 


完备 的 二 叉 树 
完备 的 已 叉 树 
完备 的 三 叉 树 
复杂 的 分 划 
Complexity analysis of algorithms 
图 的 分 量 
复合 属性 
一 个 树 的 复合 叶 
压缩 的 检索 结构 
动态 的 压缩 检索 结构 
数据 的 压缩 
折 中 合并 
计算 的 复杂 性 , 见 Com- 


Complete binary trees 
Complete P-ary tree 
Complete ternary trees 
Complex partitions 
算法 的 复杂 性 分 析 
Components of graphs 
Compound attributes 
Compound leaf of a tree 
Compressed tries 
dynamic 
Compression of data 
Compromise merge 
Computational complexity 
plexity 
Computational geometry 计算 几何 
Computer operator ,skilled 熟练 的 计算 机 操作 员 


Computer Sciences Corporation ”计算 机 科学 有 限 公 司 
Comrie,Leslie John 科 姆 里 , 莱 斯 利 ' 约 翰 
Concatenation of balanced trees 平衡 树 的 连接 
Concatenation of linked lists ”链接 表 的 连接 
Concave functions 四 函数 

Concurrent access 并 发 存 取 

Conditional expressions ”条件 表达 式 

Connected graphs 连通 图 

Consecutive retrieval ”连接 检索 

Convex functions ”上 同 函 数 

Convex hulls 则 外 过 

Cookies ”家常 小 甜 饼 


Coordinates ”坐标 
Copyrights,iv 版 权 


Cormen, Thomas H. 


科 尔 曼 ,托马斯 *H 


Coroutines ” 共 行 程序 
Cotangent 反正 切 


Counting ,sorting by 通过 计数 进行 排序 

Covering 和 履 盖 

Coxeter, Harold Scott Macdonald 考 克 斯 特 , 哈 罗 德 : 
斯 科 特 麦 克 唐 纳 德 

克拉 上 默 , 加 布 里 埃 尔 

死 拉 默 , 迈 死 尔 


兰 ,克拉 克 ' 阿 伦 


Cramer , Gabriel 
Cramer, Michael 
Crane, Clark Allan 
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Crelle: Journal fiir die reine und angewandte Mathe- 
matik, an international journal founded by A.L. 
Crelle in 1826 1826 年 由 A.L. Crelle 创立 的 一 
份 国际 期 刊 

Criss-cross merge 交叉 合并 

Cross-indexing “交叉 索引 , 见 Secondary key retrieval 

交叉 访问 程序 

Crossword-puzzle dictionary “交叉 字谜 词典 

Cube, n-dimensional, linearized ”线性 化 的 ” 维 立 体 

卡尔 伯 森 ,约瑟夫 :卡尔 

卡 勒 , 戴 维 ' 埃 坦 

坎 迪 ,亨利 马丁 

坎 托 , 帕 西 :沃尔特 





Cross-reference routine 


Culberson ,Joseph Carl 
Culler ,David Ethan 
Cundy ,Henry Martyn 


Cunte Pucci, Walter 


Curtis, Pavel 卡尔 蒂 斯 , 帕 夫 和 尔 

Cycles of a permutation 一 个 排列 的 轮换 
Cyclic occupancy problem ”循环 占据 问题 
Cyclic rotation of data 数据 的 循环 转动 
Cyclic single hashing 循环 单 散 列 
Cylinders of a disk 一 个 磁盘 的 柱 面 


Cypher, Robert Edward 赛 菲 尔 , 罗 伯 特 .爱德华 
斯 捷 彻 , 泽 毕 格 纽 ` 简 努 斯 泽 


Czech, Zbigniew Janusz 


Czen Ping 成 平 


Daly,Lloyd William 戴 利 , 洛 伊 德 .威廉 
Dannenberg ,Roger Berry 上 丹 能 贝 格 , 罗 杰 : 贝 利 
数据 压缩 

Data structure, choice of 数据 结构 ,选择 
数据 库 

David, Florence Nightingale 


Data compression 


Database 

戴 维 , 弗 洛 伦 斯 ' 奈 廷 格 

尔 

戴维森 , 利 串 

Davies,Donald Watts ” 戴 维 斯 ,唐纳德 ' 瓦 区 

Davis, David Robert 戴 维 斯 , 戴 维 : 罗 伯 特 

Davison,Gerard A. 戴维森 , 杰 拉 德 .A 

de Balbine,Guy 德 巴尔 宾 : 盖 

de Bruijn,Nicolaas Govert 德 . 布 鲁 因 ,尼古拉斯 : 戈 
维特 

de la Briandais, René Edward 德 : 拉 ' 布 粹 恩 戴 斯 , 雷 
内 :爱德华 


de Peyster, James Abercrombie, Jr. 


Davidson , Leon 


德 : 佩 译 , 小 詹 姆 


斯 ' 艾 伯 克 龙 比 

de Stasl, Madame, 德 .斯 塔 耶 尔 ,马达 黑 , 见 Staal-Hol- 
steln 

Deadlines 和 截止 时 间 

Deadlocks 死 锁 

Debugging ” 排 错 


Decision trees ”决策 树 

Dedekind,Julius Wilhelm Richard 戴 德 金 , 朱 利 叶 斯 
威廉 . 理 查 德 

SUIMmS 狄 德 金 和 数 


退化 树 
退化 地 址 
Degree path length 叉 树 路 径 长 度 
Degrees of freedom 自由 度 


Degenerate trees 


Degenerative addresses 


删 去 :撤消 一 个 项 
from a B-tree 从 一 棵 B 树 中 删 去 
from a balanced tree 从 一 棵 平衡 树 删 去 
from a binary search tree ”从 一 棵 平衡 查找 树 删 去 
from a digital search trees ”从 一 棵 数字 查找 树 删 去 
from a hash table ”从 一 个 散 列 表 删 去 
from a heap ”从 一 个 堆 删 去 
from a leftist tree ”从 一 棵 左倾 树 删 去 
from a multidimensional tree ”从 一 棵 多 维 树 删 去 
from a trie 从 一 个 检索 结构 删 去 

Demuth ,Howard B. 德 稳 思 ,霍华德 .B 

Den ,Vladimir Eduardovich 登 , 弗 拉 基 米尔 ' 爱 多 华 

多 维 寺 
Denert,Marlene 过 尼 特 ,马琳 
登 特 , 沃 伦 :托马斯 


Deletion :Removing an item 


Dent, Warren Thomas 
Derangements 搅乱 
Descents 递 降 


Determinants 行列 式 
Vandermonde ” 范 德 蒙 德 行列 式 


Deutsch ,David Nachman 杜 特 斯 , 戴 维 : 纳 彻 曼 


Devroye, Luc Piet-Jan Arthur 德 夫 洛 伊 , 卢 克 : 派 伊 
特 ' 简 ` 阿 登 

Diagram of a partial order 一 个 偏 序 的 图 式 

Dictionaries of English ”英文 词典 

词典 顺序 


Dietzfelbinger, Martin Johannes 


Dictionary order 


戴 特 泽 菲 尔 宾 格 尔 ， 


人 名 和 术语 中 英 对 照 





马丁 约翰 尼斯 
数字 查找 树 
optimum ”最 优 数 字 查 找 树 
Digital searching ”数字 查找 
Digital sorting ”数字 排序 , 见 Radix sorting 
Digital tree search 数字 树 查找 
Dijkstra, Edsger Wijbe 迪 依 克 斯 特 拉 , 埃 德 加 ' 怀 伊 
比 


Diminishing increment sort 


Digital search tree 


减少 递减 排序 

丁 斯 莫 尔 ,罗伯特 ' 约 硕 
Direct-access memory 直接 存 取 存 储 , 见 Disk storage 
图 的 直接 和 

有 问 图 

Discrete entropy ”离散 业 

离散 对 数 

离散 系统 模拟 


Dinsmore ,人 了 Robert Johe 


Direct sum of graphs 


Directed graphs 


Discrete logarithms 
Discrete system simulation 
判别 式 
磁盘 存储 
Disk striping “磁盘 分 条 
Displacements, variance of 转移 的 方差 
分 布 计数 排序 

分 布 函 数 , 见 Probability 
分 布 模式 
Distribution sorting, 分 布 图 数 见 Radix sorting ”分布 

排序 


Distributive laws 


Discriminant 


Disk storage 


Distribution counting sort 
Distribution functions 


Distribution patterns 


分 配 律 
Divide and conquer 分 而 胜 之 
分 而 胜 之 递归 
因子 函数 4 (n) 


recurrence 
Divisor function d(n) 
Dixon ,John Douglas 
DNA 脱氧 核糖 核酸 
Dobkin ,David Paul 多 布 金 , 戴 维 ' 保 罗 
Dobosiewicz, Wlodzimierz ”多 波 谢 维 奇 , 维 罗 德 基 米 
尔 泽 
Dodd,Marisue 多 德 , 马 利 登 
Dodgson ,Charles Lutwidge 多 德 格 森 ,查尔斯 .路 特 
维 奇 , 见 Carroll 
多 尔 ,多 利 特 
Doren ,David Gerald 多 琳 , 戴 维 . 杰 拉 德 


Dot product ”点 积 


Dor , Dorit 


” 733 ， 


人 名 和 术语 中 英 对 照 表 


Double-entry bookkeeping” 双 项 禾 记 

Double hashing ”双重 散 列 

Double rotation ”双重 转动 

Doubly exponential sequences ”双重 指数 序列 

Doubly linked list ”双重 链接 表 

Douglas, Alexander Shafto 道格拉斯 , 阿 历 山大 :了 萨 非 
托 

Dowd,Martin John 道 得 ,马丁 :约翰 

Drake,Paul 德 雷 克 , 保 罗 

Driscoll ,James Robert 德里 斯 戈 尔 , 詹 姆 邦 :罗伯特 

Dromey, Robert Geoffrey 德 罗 米 ,罗伯特 ' 乔 菲 利 

Drum storage ”磁盘 存储 

Drysdale, Robert Lewis( Scot) 
刘易斯 (斯 艾 特 ) 

Dual of a digraph 一 个 有 向 图 的 对 偶 

对 偶 图 表 

Dubost, Pierre 杜 博 斯 特 , 皮 埃 尔 

Dudeney ,Henry Ernest 杜 德 尼 , 享 利 : 欧 内 斯 特 

Dugundji,James 达 冈 德 吉 ,和 储 姆 斯 

Dull, Brutus Cyclops 达尔 , 布 鲁 特 斯 . 赛 斯 洛 普 斯 

Dumas,Philippe 杜 马 斯 ,菲利普 

Dumey,Arnold Isaac 达 米 ,阿诺德 ' 伊 萨 克 

Dummy runs ”虚拟 路 段 

Dumont, Dominique 杜 芒 特 , 多 米 尼克 

Duplication of code 代码 的 复制 

Dutch national flag problem ”和 栓 兰 国旗 问题 

Dwyer,Barry 人 德 威 尔 , 巴 利 

动态 程序 设计 

Dynamic searching ”动态 查找 

Dynamic storage allocation 动态 存储 分 配 


德 赖 斯 代 尔 ,罗伯特 : 


Dual tableaux 


Dynamic programming ix 


e 自然 对 数 的 底 
Ebbenhorst Tengbergen , Cornelia van 
格 贝尔 金 , 科 尔 尼 利 亚 ' 范 
Eckert ,John Presper 埃 克 特 , 约 输 ' 普 雷 斯 佩 
Eckler,Albert Ross 埃 克 特 ,阿尔 伯 特 ' 洛 斯 
Eddy,Gary Richard 埃 迪 ,加 里 : 理 查 德 
Edelman,Paul Henry 埃 德 尔 曼 ,保罗 . 享 利 
Edge-notched cards ” 边 带 槽 口 的 卡片 
Edighoffer,Judy Lynn Harkness 埃 迪 霍 弗 , 朱 迪 : 林 : 
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埃 本 霍 斯 特 - 登 


哈 克 尼斯 
Edmund,Norman Wilson 埃 德 蒙 , 庄 曼 : 威 尔 森 
EDVAC computer EDVAC 计算 机 
Efe,Kemal 埃 非 , 克 马尔 
Effective power 有 效 功率 , 见 Growth ratio 
Efficiency of a digraph 一 个 有 向 图 的 有 效 性 
Ehresmann,Charles 爱 里 斯 曼 ,查尔斯 
Eichelberger,Edward Baxter 爱 彻 尔 贝 格 ,爱德华 . 巴 
克 斯 特 
Eisenbarth,Bernhard 芯 森 巴 恩 , 伯 恩 哈 德 
El-Yaniv 埃 尔 一 雅 尼 夫 
Elcock,Edward Wray 埃 尔 科 克 ,爱德华 : 威 拉 
Elementary symmetric functions 初等 对 称 函 数 
Eleser 埃 里 希 , 见 Breaux 
Elevators 电梯 
Elias,Peter 伊 莱 亚 斯 ,彼得 
Elkies, Noam David 埃 尔 基 斯 , 诺 亚 姆 : 戴 维 
Ellery, Robert Lewis John 埃 勒 里 ,罗伯特 :刘易斯 
约翰 
Emde Boas,Peter van 埃 姆 德 . 波 亚 斯 ,彼得 ' 范 
Emden, Maarten Herman van 挨 姆 登 ,马尔 登 . 赫 曼 ， 
范 
Empirical data 经 验 数据 
English language “英语 
common words ”英语 通用 词 
dictionaries ”英语 词典 
letter frequencies ”英语 字母 频率 
Entropy 炉 
Enumeration of binary trees” 二叉树 的 枚 举 
balanced 平衡 树 的 枚 举 
leftist 左倾 树 的 枚 举 
Enumeration of permutations “排列 的 枚 举 
Enumeration of trees 树 的 枚 举 
Enumeration sorting 枚 举 排序 
Eppinger, Jeffrey Lee 普 英 杰 , 杰 弗 里 ' 李 
Equal keys ”相等 键 码 
approximately 近似 地 相等 的 键 码 
in heapsort 堆 排 序 中 的 相等 键 码 
快速 排序 中 的 相等 键 码 
in radix exchange 基数 交换 中 的 相等 键 码 


in quicksort 


人 名 和 术语 中 英 对 照 表 





集合 的 相等 

Eratosthenes of Cyrene 赛 里 尼 的 伊 拉 托 斯 森 斯 
Erdélyi, Arthur 厄 德 尔 菜 , 阿 臣 

Erd6s,P&l( = 二 Paul)” 厄 道 斯 , 帕 尔 ( 二 保罗 ) 

埃 德 温 , 介 尔 ' 迪 尼 


Equality of sets 


Erdwinn ,Joel Dyne 


Erkio, Hannu Heikki Antero 厄 尔 基 奥 , 汉 努 : 海 克基 
` 安 特 罗 
Error-correcting codes ”误差 校正 三 


Ershov,Andrei Petrovich 厄 尔 索 夫 , 安 德 烈 彼 得 罗 
维 奇 

Espelid, Terje Oskar 

Estivill-Castro, Vladimir 
基 米 尔 

Euler, Leonhard 


埃 斯 皮 里 得 , 特 尔 杰 ' 奥 斯 卡 
埃 斯 蒂 威 尔 - 卡 斯 特 罗 , 弗 拉 


欧 拉 ,里 昂 哈 德 

欧 拉 数 ( 正 割 数 ) 
欧 拉 求 和 公式 
欧 拉 的 数 

尤 斯 特 布 洛克 , 贾 塔 
伊 夫 , 和 詹姆斯 

偶 奇 合并 

偶 排列 

进化 过 程 

交换 选择 
Exchange sorting ”交换 排序 

optimum 最 优 交 换 排序 

Exclusive or 异 或 


numbers(secant numbers) 

summation formula 
Eulerian numbers 
Eusterbrock ,Jutta 
Eve, James 
Even-odd merge 
Even permutations 
Evolutionary process 


Exchange selection sort 


Exercises,notes on,ix-xi. 关于 习题 的 说 明 
Exponsntial function, 9- generalized aq- 推 广 的 寡 函 数 
Exponential integral “和 需 积 分 


Extended binary tree: Either a single “external” node ,or 
an “internal” root node plus its left and right ex- 

扩充 的 二 叉 树 :或 者 是 单 
个 “外 部 的 ”节点 ,或 者 是 一 个 “内 部 的 ” 根 节点 加 
上 它 的 左 和 右 扩 充 的 二 叉子 树 

Extendible hashing 可 扩充 的 散 列 

外 部 的 节 损 

External path length:Sum of the the level numbers of all 


外 部 通路 长 度 , 所 有 外 部 节点 的 


tended binary subtrees 


External nodes 


external nodes 
级 别 数 之 和 
modified 修改 的 外 部 通路 长 度 


External searching ”外 部 查找 
External sorting ”外 部 排序 


Faetorials ”阶乘 

generalized ”推广 的 阶乘 
Factorization of permutations 
Fagin, Ronald 法 金 , 罗 纳 德 
Fallacious reasoning ”错误 的 推理 


排列 的 因子 分 解 


Falling powers 下 降 的 次 宪 

False drops 错误 的 丢失 

Fanout 局 出 

Fast Fourier transforms ”快速 侍 里 叶 变 换 
Fawkes,Guido(Guy) 福克斯 ,六 多 ( 盖 伊 ) 
Feature cards ”特征 卡片 

Feijgenbaum,Joan ” 菲 根 保姆 , 玉 


Feijen, Wilhelmus( = Wim)Hendricus Johannes 非 恩 ， 
威廉 (= 威 姆 ) 训 德里 克 斯 :约翰 尼斯 
Feindler, Robert ” 范 德 勒 ,罗伯特 
Feit,Walter 非特 ,沃尔特 
Feldman,Jerome Arthur 费 尔 德 曼 , 杰 罗 姆 ' 阿 蕊 
Feldman ,Paul Neil 费 尔 德 曼 , 保 罗 ' 奈 尔 
Feller, Willy( = William) 费 勤 ' 威 利 (' 威 廉 ) 
费 尔 斯 纳 ,斯 蒂 苍 
芬 纳 尔 , 特 里 福 ' 伊 恩 
弗 格 林 , 戴 维 ' 埃 尔 顿 
皮 埃 尔 : 德 格式 
弗 拉 基 纳 ,保罗 
福 伊 尔 齐 格 , 华 莱 士 
菲亚特 , 阿 偶 斯 
Fibonacci, Leonardo, of Pisa 


和 
您 


Fibonacci hashing , xlv 


Felsner, Stefan 
Fenner, Trevor Tan 
Ferguson, David Elton 
Fermat, Pierre de 
Ferragina, Paolo 

Feurzeig, Wallace 
Fiat, Amos 


比萨 的 斐 波 那 契 .化 纳 


斐 波 那 契 散 列 

斐 波 那 契 堆 

斐 波 那 契 数 系 

generalized 推广 的 斐 波 那 契 数 系 

斐 波 那 契 数 

推广 的 辈 波 那 契 数 ,也 见 Cascade 


Fibonacci heaps 


Fibonacci number system 


Fibonacci numbers 
generalized 
numbers 
Fibonacci search ” 斐 波 那 契 查找 
斐 波 那 契 树 


Fibonacci trees 


人 名 和 术语 中 英 对 照 





Fibonaccian search ” 斐 波 那 契 查找 
菲尔德 ,丹尼尔 ' 尤 金 
FIFO ”先进 先 出 , 刚 Queues 
File:A sequence of records ”文件 :一 个 记录 的 系列 
自 组 织 的 文件 
Finding the maximum ”寻找 极 大 值 
and minimum 寻找 极 大 值 和 极 小 值 
Fingers 手指 
Finite fields ”有 限 域 
Finkel, Raphael Ari 


Field, Daniel Eugene 


self-organizing 


芬 克 尔 , 拉 非 尔 * 阿 里 
人 
先进 先 出 , 见 Queues 
Fischer, Michael John ” 菲 希 尔 ,迈克 尔 ' 约 和 翰 
Fishburn,John Scot 非 什 伯 恩 ,约翰 :斯 科 特 
非 什 皮尔 
Fixed points of a permutation 一 个 排列 的 不 动 点 
Flajoley, Philippe Patrick Michel 弗 拉 约 勒 特 , 菲 利 普 


First-fit allocation 


First-in-first-out 


Fishspear 


“帕特里克 迈克尔 
Flip operation ”触发 操作 


浮动 缓冲 区 

浮 点 精度 

Flores, Ivan 弗 洛 里 斯 , 伊 凡 

Floyd,Robert W 弗 洛 伊 德 ,罗伯特 ,W 

Foata ,Dominique Cyprien ” 福 塔 ,多 米 尼克 : 西 普 里 安 
FOCS : Proceedings of the IEEE Symposia on Founda- 


Floating buffers 


Floating point accuracy 


tions of Computer Science (1975 -), formerly 
called the Symposia on Switching Circuit Theory 
and Logic Design (1960 - 1965), Symposia on 
Switching and Automata Theory (1966-1974). 会 
议论 文集 

Folding a path 对 折 一 条 通路 

Foldout illustration ” 折 悉 图解 

Fomin,Sergey Vladimirovich 福 明 , 塞 奇 . 弗 拉 基 米 
尔 洛 维 奇 

Ford,Donald Floyd 福特 ,唐纳德 : 弗 洛 伊 德 

Ford ,Lester Randolph,Jr. 小 福特 , 莱 斯 特 ' 伦 道夫 

Forecasting ”预报 

Forest: Zero or more trees ”和 森林: 零 个 或 多 个 树 

FORTRAN FORTRAN 程序 语言 

Forward-testing-backward-insertion 问 前 测试 加 后 插 


OO 


2 
Foster,Caxton Croxford 福 斯 特 , 卡 克 斯 顿 . 克 劳 福 
得 
Fractal probability distribution ” 断 片 概率 分 布 
碎片 插入 
Frame ,James Sutherland 弗 兰 姆 , 往 姆 斯 . 萨 瑟 兰 
Francon ,Jean 弗 明 松 , 吉 恩 
Frank, Robert Morris ”弗兰克 ,罗伯特 ' 莫 里 斯 
Franklin ,Fabian 富兰克林 , 费 比 恩 
Fraser, Christopher Warwick 弗 雷 泽 , 克 里 斯 多 弗 ， 
Frazer, William Donald 弗 雷 泽 ,威廉 .唐纳德 
Fredkin, Edward 弗 雷 德 金 ,爱德华 


弗 雷 德 曼 ,迈克 尔 . 劳 伦 


Fractile insertion 


Fredman, Michael Lawrence 


斯 
Free groups 自由 群 
自由 树 
Frequency of access” 存 取 频率 
Friedman,Haya 弗 里 德 曼 , 哈 雅 
Friedman ,Jerome Harold 弗 里 德 曼 . 杰 罗 默 . 哈 罗 德 
Friend,Edward Harry 弗 兰 德 ,爱德华 .哈里 
Frieze,Alan Michael 弗 里 泽 ,阿兰 :迈克 人 尔 
Fringe analyses 边缘 分 析 
Frobenius, Ferdinand Georg 
德 ` 乔 治 


Front and rear compression 


Free trees 


弗 罗 比 尼 尤 斯 , 弗 迪 南 


前 后 压缩 
Fussenegger,Frank 弗 森 尼 格 ,弗兰克 


Gabow, Harold Neil 加 保 , 哈 罗 德 . 尼 尔 
盖 恩 斯 , 黑 林 … 福 彻 
Gale,David 盖 尔 , 戴 维 

Galen,Claudius” 盖 伦 , 克 劳 迪 亚 斯 
Galil,Zvi 加 里 尔 , 泽 维 


Gamma function T(z) 


Gaines, Helen Fouché 


伽 玛 函数 T(z) 
Gandz,Solomon 甘 效 ,所 罗 门 

Gardner, Erle Stanley 加 德 纳 , 龙 尔 :斯 坦 利 
Gardner,Martin 加 德 纳 ,马丁 

Gardy,Daniele 加 和 尔 蒂 ,丹尼尔 

Garsia, Adriano Mario ”加 西亚 , 阿 德里 亚 诺 * 马 里 奥 
Garsia-Wachs algorithm 加 西亚 - 沃 彻 算法 





(jasarch, William Ian 加 沙 尔 兹 ,威廉 : 伊 思 

Gassner ,Betty Jane ”加 斯 纳 , 贝 蒂 : 简 
Gaudette,Charles H. ”高 德 特 , 查 尔 斯 "H 

GauB ( = Gauss ) Johann Friedrich Carl ( = Carl 


Friedrich) ”高 斯 ,约翰 : 弗 雷 德里 泽 : 卡 尔 

Gaussian integers ”高 斯 整数 

gcd: Greatest common divisor 最 大 公 因 子 

Generable integer 可 生成 整数 

Generating functions, techniques for using 使 用 生成 
级 数 的 技术 

Genes 杰 尼 斯 

Genetic algorithms 焉 传 图 数 

Genoa, Giovanni di 可 诺 亚 , 吉 乔 岂 尼 巡 

Geometric data 几何 数据 


George,John Alan 乔治 ,约翰 : 阿 伦 

术 塞 尔 , 伊 拉 ' 马 丁 
Ghosh,Sakti Pada 蕊 斯 , 萨 克 带 : 帕 达 

Gibson ,Kim Dean 吉布森 , 金 ' 迪 安 
Gilbert,Edgar Nelson 吉尔 伯 特 , 埃 德 加 :纳尔逊 


吉尔 布 里 思 ,诺尔 曼 ' 邢 


Gessel , Ira Martin 


Gilbreath ,Norman Laurence 
伦 斯 
principle 吉尔 布 里 思 原 理 
Gillis,Joseph 吉尔 里 斯 ,约瑟夫 
Gilstad,Russell Leif 吉尔 斯 塔 德 , 拉 塞 尔 , 羔 夫 
Gini,Gorrado 吉 尼 , 科 拉 多 
格 里 森 ,安德鲁 ' 马 太 
Goetz, Martin Alvin 苞 萄 ,马丁 :阿尔 文 
Goldberg,Andrew Vladislav” 戈 德 堡 ,安德鲁 . 弗 拉 基 
斯 拉夫 
Golden ratio , xiv 


Goldenberg , Daniel 


Gleason, Andrew Mattei 


黄金 分 割 比 

区 登 堡 ,丹尼尔 
Goldstein ,Larry Joel 戈 尔 斯 坦 , 拉 里 : 乔 尔 
Golin, Mordecai J]. 成 林 , 英 尔 德 塞 ]( 高 可 龄 ) 
Gonnet Haas, Gaston Henry 康 内 特 , 哈 斯 .加 斯 顿 : 

亨利 

Good,Irving John 上 古 德 ,欧文 :约翰 
Goodman,Jacob Eli 上 古 德 曼 , 雅 可 布 . 埃 里 
Goodwin, David Thomas 上古 德 温 , 戴 维 : 托 马 斯 
Gore,John K. 戈 尔 ,约翰 .天 
Gotlieb ,Calvin Carl 戈 特 利 布 , 卡 尔 文 :卡尔 


人 名 和 术语 中 英 对 照 


Goto, Eiichi ”后 芯 英 一 

Gourdon ,Xavier Richard 戈 尔 顿 , 扎 维 尔 : 理 查 德 

GPX system GPX 系统 (UNIVAX 计算 机 中 的 一 个 
系统 ) 

Grabner, Peter Johannes 

Graham, Ronald Lewis 
( 葛 立 恒 ) 


Grasselli, Antonio 


格拉 布 纳 ,彼得 ' 约 翰 
格雷 厄 姆 , 罗 纳 德 : 刘 易 斯 


格拉 宏利 ,安东尼 奥 

Grassl, Richard Michael 格拉 塞 尔 , 理 查 德 .迈克 和 尔 
格雷 ,哈里 小 乔 舒 亚 

格雷 ,詹姆斯 .尼古拉斯 
最 大 公 因 子 

格林 ,米尔 顿 韦 伯 斯 特 

格林 , 柯 蒂 斯 

Greene,Daniel Hill 格林 ,丹尼尔 .和希 和 尔 

Greniewski, Marek 格 里 纽 斯 基 , 马 雷 克 

Grid files 栅 格 文件 

Gries,David Joseph 格 里 斯 , 戴 维 : 约 瑟 

Grinberg, Victor Simkhovich 格林 贝 格 , 维 克 多 : 西 姆 

克 霍 维 奇 

Griswold, William Gale 格 里 斯 沃 德 ,威廉 * 加 里 

Gross,Oliver Alfred 格 罗斯 , 奥 里 弗 . 艾 尔 弗 雷 德 

格 罗 西 , 罗 伯 托 

自由 群 

Group divisible block designs 和 群 可 分 区 设计 

Grove,Edward Franklin 格 罗 弗 ,爱德华 .富兰克林 

生长 率 

Guibas,Leonidas John 吉 巴 斯 , 利 奥 尼 达 斯 :约翰 

Guilbaud,Georges Théodule ” 吉 保 德 ,乔治 斯 ` 西 奥 度 


Gray, Harry Joshua,Jr. 
Gray,James Nicholas 
Greatest common divisor 
Green, Milton Webster 


Greene, Curtis 


Grossi, Roberto 


Group ,free 


Growth ratio 


尔 

Gunji,Takao 都 司 隆 男 

Gustafson ,Richard Alexander 吉 斯 塔 夫 森 , 理 查 德 : 
亚历山大 

Gustavson, Frances Goertzel ” 吉 斯 塔 夫 森 ,弗朗西斯 
臣 策 尔 


格 温 贝 格 , 杰 尔 诺 特 
回旋 排序 


Gwehenberger, Gernot 


Gyrating sort 


h-ordered Se hh- 次 序 序列 
Hadian, Abdollah ” 蛤 迪 安 ,阿布 多 拉 


oJ 
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Hajela, Dhananjay 哈 杰 拉 ， 丹 南 机 仇 

Hajnal, Andr&s” 哈 仇 纳 尔 , 安 德 拉 斯 

Half-balanced trees ” 半 平 衡 树 

Hall, Marshall,Jr 小 霍 尔 ,马歇尔 

Halperin,John Harris 霍 尔 珀 林 ,约翰 .哈里 斯 

Halpern ,Mark Irwin 和 霍 尔 珀 林 ,马克 :欧文 

Hamilton ,Douglas Alan 汉密尔顿 ,道格拉斯 

Han ,Guo-Niu 幕 国 牛 

哈 南 ,英里 斯 

Hannenhalli, Sridhar Subrahmanyam 汉 能 哈里 ,斯 里 
德 哈 ' 舒 们 拉 马 尼 亚 姆 

哈 拉 兰 保 斯 , 雅 尼斯 

Hardy,Godfrey Harold 哈 迪 , 艾 弗 雷 : 哈 罗 德 


Hanan, Maurice 


Haralambous, Yannis 


哈 迪 , 庄 曼 
generalized 广义 调和 数 


Harper, Lawrence Hueston 


Hardy, Norman 


Harmonic numbers 


哈 珀 ,劳伦斯 "休斯顿 

Harrison, Malcolm Charles ”哈里 森 , 马尔 科 姆 : 查 尔 
斯 

Hash functions 散 列 函数 

组 合 散 列 函 数 

Hash sequences ” 散 列 序列 

Hashing ” 散 列 


Havas, George 


combinatorial 


哈 瓦 斯 ,乔治 
Hayward,Ryan Bruce 海 沃 德 ,里 安 . 布 鲁 斯 
Heap:A heap-ordered array 堆 : 一 个 堆 编 序 的 数组 
Heap order 堆 序 
Heaps, Harold Stanley 哈 罗 德 :斯 坦 利 堆 
堆 排序 
with equal keys ”有 相等 键 码 的 堆 排 序 
Heide 海德 , 见 Meyer auf der Heide 
Height-balanced trees ”高 度 平衡 树 
Height of extended binary tree 扩充 的 二 又 树 的 高 度 
随机 二 又 查找 树 的 高 


Heapsort 


of random binary search tree 


度 

of random digital search tree ”随机 数字 查找 树 的 高 
度 

of random (MT+1)-ary search tree 随机 M+1 进 
制 查找 树 的 高 度 

of random Patricia tree ”随机 帕 特 里 西 亚 树 的 高 度 
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of random trie 随机 检索 结构 的 高 度 

Heilbronn ,Hans Arnold 海尔 布 伦 , 汉 斯 :阿尔 诺 德 

Heising, William Paul 海 辛 ,威廉 :保罗 

Heller, Robert Andrew ”区 勒 , 罗 伯 特 :安德鲁 

Hellerman,Herbert 赫 勒 曼 , 赫 伯 特 

Hellerstein,Joseph Meir 赫 勒 斯 坦 ,约瑟夫 ' 梅 尔 

Hellman ,Martin Edward 赫 尔 曼 ,马丁 .爱德华 

Hendricks, Walter James 享 德 里 克 斯 ,沃尔特 :篇 姆 
斯 

Hennequin, Pascal Daniel Michel Henri 
斯 卡 ' 丹 尼 尔 ' 迈 克 尔 ' 享 利 

Hennie, Frederick Clair 享 尼 , 弗 里 德里 克 ' 克 菜 尔 

Hermite ,Charles,polynomial ” 替 密 特 ,查尔斯 多 项 式 

Herrick ,Robert 蔡 里 克 ,罗伯特 

Hibbard,Thomas Nathaniel 和希 巴 德 , 托 马 斯 ' 纳 撒 尼 
尔 

Hilbert,David 希 巴 德 , 戴 维 

Hildebrandt, Paul 和 希 尔 德 布 兰 特 , 保 多 

Hillman ,AbrahamP 和希 尔 曼 ,阿布 拉 罕 ,P 

Hindenburg,Karl Friedrich 砍 登 们 格 , 卡 尔 ' 弗 里 德 
里 克 

Hinrichs,Klaus Helmer 砍 里 彻 斯 , 克 劳 斯 . 赫 尔 默 

Hinterberger, Hans 有 欣 登 贝 格 , 汉 斯 

Hinton ,Charles Howard 砍 顿 ,查尔斯 .霍华德 

Hoare,Charles Antony Richard 和 霍 尔 ,查尔斯 . 安 托尼 
' 理 查 德 

Hobby ,John Douglas 霍 比 ,约翰 :道格拉斯 

Hoey ,Daniel J]. 雷 伊 ,丹尼尔 *J 

Holberton , Frances Elizabeth Snyder， 
西 斯 ,伊丽莎白 斯 奈 德 

霍 勒 里 特 , 替 尔 受 


享 尼 奎 因 , 巴 


霍 尔 伯 顿 , 弗 明 


Hollenith, Herman 


Holt Hopfenberg, Anatol Wolf 霍 尔 特 ' 霍 普 芬 们 格 ， 
阿 纳 托 尔 ' 沃 尔 夫 

Homer 和 霍 默 

Homogeneous polynomial 齐 次 多 项 式 

Hooker, William Weston 胡 克 ,威廉 . 韦 斯 顿 

Hooking-up of queues 队 的 钩 接 


Hooks 钓 
generalized 扩充 61 钩 
Hopcroft ,John Edward 和 霍 普 克 罗 夫 特 ,约翰 .爱德华 


Hoshi, Mamoru 星 守 
Hosken ,James Cuthbert 霍 斯 金 ,詹姆斯 . 卡 思 伯 特 
Hot queues 热 队 

Hsu,Meichun 许 玫 君 

Hu,Te Chiang 胡 德 强 


Hu-Tucker algorithm 胡 - 塔 克 算 法 


Huang Bing-Chao  ” 黄 秉 超 

Hubbard,George Underwood ”哈巴 德 ,乔治 . 安 德 伍 
德 

Huddleston ,Charles Scott “” 赫 德 勒 斯 顿 , 查 尔 斯 .斯 蕊 
特 

Huffman, David Albert ,trees “” 赫 夫 有 曼 , 戴 维 : 阿 尔 伯 特 
树 


Human-computer interaction ”人 机 交互 

享 特 , 道 格拉 斯 . 汉 密 顿 
Hurwitz, Henry 赫 维 次 ,亨利 

Hwang,Frank Kwangming 黄 光 明 

黄 显 贵 

海 亚 非 尔 , 劳 伦 特 ' 丹 尼 尔 
混合 查找 方法 

混合 排序 方法 
Hypercube ,linearized 线性 化 的 超 立 体 

超 几何 函数 


Hunt, Douglas Hamilton 


Hwang, Hsien-Kuei 
Hyatfil, Laurent Daniel 
Hybrid-searching methods 
Hybrid sorting methods 


Hypergeometric functions 
Hyphenation ” 破 折 号 
Hysterical B-trees 软 斯 底 里 的 B- 树 


IBM 701 computer 
IBM 705 computer 


IBM 701 计算 机 

IBM 705 计算 机 

IBM 公司 

IBM RS/6000 computer IBM RS/6000 计算 机 

等 军 律 

Identifier:A symbolic name in an 
数 语言 中 的 一 个 符号 名 

algebraic language 

单位 元 

含 著 的 数据 结构 

在 过 去 , 见 Persistent data structures 

Inakibit-Anu of Uruk 马 鲁 克 的 艾 娜 基 上 比特 - 安 奴 

Incerpi,Janet Marie 英 塞 尔 比 ,珍妮 特 玛 丽 

容 斥 原理 


IBM Corporation 
ldempotent laws 


标识 符 :在 一 个 代 


Identity element 
Implicit data structures 


In the past 


Inclusion-exclusion principle 


人 名 和 术语 中 英 对 照 


集合 的 包含 

包含 查询 

Incomplete gamma function Y(a,z) 
函数 y(a，,z) 


Increasing forests 


Inclusion of sets 


Inclusive queries 


不 完备 的 伽 玛 


递增 的 和 森林 
Independent random probing 独立 的 随机 探测 
Index keys for file partitioning ”文件 分 划 的 索引 键 码 
Index of a permutation 一 个 排列 的 下 标 
Index to this book 本 书 的 索引 
Indexed-sequential files ” 带 索 引 的 顺序 文件 
Infinity 无 穷 大 
作为 标志 的 无 穷 大 
信息 检索 
Information theory 信息 论 

lower bounds from 来 自信 息 论 的 下 界 
内 循环 :其 指令 的 执行 要 比 相 邻 部 分 要 

频繁 得 多 的 一 个 程序 部 分 , 见 Loop optimization 
Insertion 插入 :加 入 新 的 项 
加 入 一 个 新 的 项 到 一 哥 2- 3 树 

加 入 一 个 新 的 项 到 一 棵 B 树 
加 入 一 个 新 的 项 到 一 棵 平衡 


as sentinel 


Information retrieval 


Inner loop 


into a 2-3 tree 

into a B-tree 

into a balanced tree 
树 

into a binary search tree ”加 入 一 个 新 的 项 到 一 棵 二 
义 查 找 树 

into a digital search tree 加 入 一 个 新 的 项 到 一 棵 数 
字 查 找 树 

into a hash table 加 入 一 个 新 的 项 到 一 棵 散 列 表 

into a heap 加 入 一 个 新 的 项 到 一 个 堆 

into a leftist tree 加 入 一 个 新 的 项 到 一 棵 左倾 树 

into a trie 加 入 一 个 新 的 项 到 一 个 检索 结构 

into a weight-balanced tree ”加 入 一 个 新 的 项 到 一 

棵 权 平 衡 树 

Insertion sorting ”插入 排序 

块 间 间隔 

Intercalation product of permutations ”排列 的 插入 积 

交换 数据 块 区 

Internal(branch) node 内 部 (分 支 ) 节 点 , 见 Extended 

binary tree 


Internal path length 内 部 通路 长 度 
内 部 通路 长 度 的 生成 函数 


”7]39 ， 


Interblock gaps 


Interchanging blocks of data 


generating function for 


人 名 和 术语 中 英 对 照 表 


Internal searching ”内 部 查找 
summary 内 部 查找 小 结 

Internal sorting ”内 部 排序 
summary 内 部 排 序 小 结 

互联 网 

Interpolation search ”内 插 查 找 

区 间 交 换 排 序 


Internet 


Interval-exchange sort 
Interval heap 区 间 堆 
Intervals 区 间 

一 个 群 中 的 北 

Inverse modulo m” 模 mx 之 下 的 首 

一 个 排列 的 反 序 
作为 多 重 集合 的 排列 的 反 序 

一 个 排列 的 反 序 表 
带 有 相等 的 一 个 排列 的 


Inverse in a group 


Inverse of a permutation 
for multisets 
Inversion tables of a permutation 


Inversions of a permutation 


反 序 


with equality “一 个 排列 的 反 序 
Inversions of tree labelings ” 树 标 号 的 反 序 
Inverted files 反 序 文件 


Involution coding “ 卷 积 编码 

Involutions ” 卷 积 

Isaac, Earl 本 伊 萨 克 , 厄 尔 '] 

Isaiah son of Amoz 伊 赛 雅 , 阿 葛 效 之 子 

Isbitz, Harold 伊 斯 比 效 , 哈 罗 德 

Isidorus of Seville, Saint(San Isidoro de Sevilla) ” 塞 维 
利 亚 的 圣 : 伊 西 多 拉 斯 ( 圣 . 伊 西 多 罗 . 德 ' 昆 维 
拉 ) 

Ismail, Mourad El Houssieny 伊 斯 梅 尔 , 毛 拉 德 : 厄 尔 
` 肾 斯 轨 尼 

Isomorphic invariants” 同 构 不 变量 

Isomorphism testing ” 同 构 测 试 

Itai, Alon 伊 泰 . 艾 隆 

Iverson ,Kenneth Eugene 艾 弗 森 , 肯 尼 特 ' 尤 金 


JACH : Journal of the ACM ,a publication of the Asso- 


ciation for Computing Machinery since 1954 
1954 年 以 来 计算 机 器 协会 的 一 个 刊物 
Jacobi,Carl Gustav Jacob， 雅 各 比 , 卡 尔 ， 吉 斯 塔 夫 ， 


雅 各 布 
Jacquet, Philippe Pierre 雅 奈 特 , 非 利 普 . 皮 埃 尔 


"7060 ， 





JAE(Jump if rA even) JAE( 如 果 rA 为 偶数 则 跳 转 ) 
(印度 的 ) 那 数 
简 森 ,卡尔 :斯 万 特 

JAO( 如 果 ra 为 奇数 则 跳 转 ) 


和 储 森 ,约翰 ， 


Jainism 
Janson, Carl Svante 
JAD(Jumop if rA odd) 
Jensen, Johan Ludvig William Valdemar 
鲁 德 维 格 * 威 廉 . 瓦 尔 德 马尔 
John,John Welliaveetil 约 梅 ,约翰 ' 威 里 亚 维 蒂 尔 
约翰 逊 ,罗伯特 ' 劳 伦 斯 
约翰 逊 , 索 尔 斯 坦 ' 伦 德 
约翰 逊 , 莱 尔 ' 罗 人 特 
约翰 逊 , 塞 尔 默 ' 马 丁 
约翰 逊 ,斯 蒂 分 ' 柯 带 斯 
Johnson ,Theodore Joseph ”约翰逊 , 西 奥 多 ' 约 和 屋 夫 
Joke 玩笑 
Jonassen ,Arne Tormod 乔纳森 , 阿 恩 . 托 莫 德 
约瑟夫 斯 , 弗 雷 维 


Johnsen, Robert Lawrence 
Johnsen, Thorstein Lunde 
Johnson, Lyle Robert 

Johnson ,Selmer Martin 


Johnson ,Stephen Curtis 


Josephus, Flavius, son of Matthias 
厄 斯 , 马 特 蒂 亚 斯 的 儿子 

约瑟夫 斯 问题 

朱 尔 利 , 体 证 斯 ' 里 尼 

Jump operators of MIX MIX 的 跳 转 操作 符 

&-d 树 

&-d 检索 结构 

Kaas,Robert 卡 斯 ,罗伯特 

Kabbala 卡 布 巴 拉 

Kaehler, Edwin Bruno 凯 赫 勒 , 埃 德 温 * 布 鲁 诺 

Kalai 凯 莱 :吉尔 

Kaman ,Charles Henry 卡 曼 ,查尔斯 ' 享 利 

Kant, Immanuel 坎 特 , 仇 姆 曼 纽 尔 

Kaplan, Aryeh 普兰 ,阿里 耶 

Kaplan, Haim 卡 普 兰 , 海 姆 

Karlin, Anna Rochelle 卡 林 , 安 纳 : 罗 谢 尔 

Karp,Richard Manning 卡 普 , 理 查 德 . 曼 字 

卡 塔 贾 依 能 , 伊 尔 基 * 朱 哈尼 

Kaufman ,Marc Thomas 考 夫 曼 ,马克 :托马斯 

Kautz, William Hall 考 茨 ,威廉 . 霍 尔 

基 西 希 奥 格 鲁 ,约翰 ' 德 密 特 


problem 


Juillé, Hugues Rene 


k-d trees 


k-dad tries 


Katajainen ,Jyrki Juhani 


Kececioglu, John Dmitri 
里 

Kelly,Wayne Anthony 凯利 , 韦 恩 ' 安 托尼 

肯 珀 , 莱 因 纳 

肯 珀 纳 , 奥 布 里 :约翰 


Kemp, Rainer 


Kempner, Aubrey John 


Kerov, Sergei Vasilievich” 克 洛 夫 , 基 尔 盖 : 瓦 西里 耶 
维 奇 

Keys ” 键 码 

Keysorting ” 键 码 排 序 

Khizder, Leonid Abramovich 
布 拉 莫 维 奇 

Kingston ,Jeffrey H.” 金 斯 顿 , 杰 弗 里 .HR 

基 普 林 , 约 琶 夫 ' 拉 迪 亚 德 

柯 切 尔 , 阿 塔 纳 修 斯 

Kirchhoff ,Gustav Robert ,first law， 柯 希 霍 夫 , 古 斯 
塔 夫 . 罗 伯 特 第 一 定律 

Kirkman, Thomas Penyngton 
顿 

triple systems 柯 克 曼 三 元 组 系统 

Kirkpatrick ,David Galer 柯 克 帕特里克 , 戴 维 : 盖 勒 

死期 成 霍 弗 ,彼得 

Kislitsyn, Sergei Sergeevich 基期 里 特 辛 , 塞 盖 ,' 塞 盖 
耶 维 奇 

Klarner ,David Anthony 克拉 尔 纳 . 戴 维 : 安 托尼 

Klein,Christian Felix ” 克 菜 因 , 克 里 斯 蒂 安 . 非 利 克 斯 

Kiein,Rolf 克 莱 因 , 罗 尔 夫 

Kleitman, Daniel J (Isaiah Solomon ) 
尔 ' 本 伊 塞 雅 ' 所 罗 门 ) 

克莱尔 , 梅 尔 文 

克 诺 特 , 加 里 - 唐 

Knuth,Donald Ervin 克 努 特 , 唐 纳 德 : 欧 文 ( 高 德 纳 ) 

Koch,Gary Grove 科 克 ,加 里 ' 格 罗 夫 

Koester ,Charles Edward 凯 斯 特 勒 ,查尔斯 :爱德华 

Kohler,Peter 科勒 ,彼得 

Koll&r,Lubor 科 尔 拉 , 卢 博 尔 

科 姆 罗斯 , 詹 诺 斯 

康 海 姆 , 艾 伦 : 古 斯 塔 夫 

Koornwinder,Tom Hendrik 科恩 温 德 , 托 姆 . 享 德里 
殉 

Korn,Granino Arthur 科恩 ,格拉 尼 庶 : 阿 瑟 

科恩 纳 , 詹 诺 斯 

Kreweras,Germain 克 雷 威 拉 斯 ,日 尔 曼 因 

Kronecker ,Leopold 克 罗 尼 克 尔 , 利 奥 博 德 

Kronmal, Richard Aaron 克朗 马尔 , 理 查 德 . 艾 伦 


需 泽 德尔 , 利 奥 尼 德 . 阿 


Kipling,Joseph Rudyard 


Kircher, Athanasius 


柯 死 曼 ,托马斯 . 彭 宁 


Kirschenhofer ,Peter 


克 莱 特 曼 , 丹 尼 


Klerer, Melvin 
Knockout tournament 


Knott,Gary Don 


Konmlos ,Jainos 


Konheim ,Alan Gustave 


Keorner, Jéanos 


人 名 和 术语 中 英 对 照 





Kronrod, Mikhail Aleksandrovich” 克 表 罗 德 , 米 克 海 
尔 ` 阿 列 克 山 德 罗维奇 

Krutar, Rudolph Allen 克 和 鲁 塔 , 鲁 道 夫 , 艾 伦 

Kruyswijk,Dirk” 克 和 鲁 伊 斯 维 克 , 迪 克 

Kummer,Ernst Eduard 库 姆 默 , 恩 斯 特 . 爱 度 华 

Kwan,Lun 伦 关 

KWIC index 上 下 文中 的 键 码 索引 

La Poutre,Johannes Antonius( = Han)， 拉 : 保 德 利 ， 
约翰 尼斯 . 安 托尼 尤 斯 (= 汉 ) 

Labelle,Gilbert 拉 贝 勒 ,吉尔 伯 特 

Ladner,Richard Emil 拉 德 纳 , 理 查 德 . 埃 密 尔 

拉 弗 勒 斯 特 ,路 易 丝 

Lagrange (= de la Grange) ,Joseph Louis ,Comte ,inver- 

拉 格 明日 (= 德 . 拉 ' 格 朗 日 ) , 约 瑟 
夫 ' 路 易 斯 科 姆 特 , 反 演 公 式 

Laguerre, Edmond Nicolas, polynomials” 拉 奎 尔 , 爱 
蒙 德 . 尼 古 拉 斯 多 项 式 

LaMarca, Anthony George 


Laforest, Louise 


sion formula 


BE 


拉 马 尔 加 , 安 托尼 :乔治 
Lambert ,Johann Heinrich 拉 姆 伯 特 ,约翰 :亨利 兹 
拉 姆 伯 特 序列 
Lampson, Butler Wright 


Sertles 

兰 普 森 , 巴 特 勒 " 赖 特 

兰 德 , 利 昂 :约瑟夫 

兰 多 尔 ,沃尔特 * 艾 斯 弗 里 德 

Landis, Evgenii Mikhailovich ” 兰 迪 斯 , 尤 金 尼 : 米 克 
海 伊 罗维奇 

Langston, Michael Allen 


Landauer, Walter lsfried 


Lander, Leon Joseph 


朗 斯 顿 ,迈克 尔 ' 艾 伦 

Lapko,Olga Georgievna 拉 普 戈 , 奥 尔 加 : 乔 吉 耶 夫 
纳 

Laplace( = de la Place), Pierre Simon, Marquis de 拉 
普 拉 斯 (= 德 ' 拉 ' 普 拉 斯 ), 皮 埃 尔 ' 西 蒙 马尔 奎 
伊 斯 ' 德 

LARC Scientific Compiler 

大 离 差 

Largest-in-first-out, 最 大 者 先 出 , 见 Priority queues 

Larson,Per-Ake 拉 尔 森 , 珀 - 阿 基 

Lascoux,Alain 拉 斯 科 克 斯 ' 阿 赖 恩 

Last-come-first-served ”后 来 先 服 务 

后 进 先 出 

等 待 时 间 


LARC 科学 编译 程序 


Large deviations 


Last-in-first-out 


Latency time 


70 
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Latin language 拉丁 语 
二 进位 向 量 的 格 
排列 的 格 


Lattice, of bit vectors 
of permutations 
of trees 树 的 格 

lattice paths 格 盘 通路 

Lawler, Eugene Leighton 劳 勤 , 尤 金 . 菜 顿 

Lazarus, Roger Ben 拉 扎 勒 斯 , 罗 杰 .: 本 


Least-recently-used page replacement 最 近 最 少 使 用 
的 页 替换 

Least-significant-digit-first radix sort 最低 有 效 位 数 
字 优 先 基 数 排序 

Leaves 叶 

Lee,Der-Tsai 李 德 财 


Lee,Tsai-hwa 李 再 华 
Leeuwen ,Jan van ” 刘 文 , 简 .万 
Leeuwen ,Marcus Aurelius Augustinus van 刘 文 , 马 库 
斯 . 奥 里 刘 斯 * 奥 古 斯 蒂 奴 斯 
Lefkowitz,David 列 莫 科 维 效 , 戴 维 
Left-to-right(or right-to-left)maxima or minima 自 左 
向 右 ( 或 自 右 向 左 ) 极 大 值 或 极 小 值 
Leftist trees 左倾 树 
deletion from 从 左倾 树 删 去 
insertion into ”插入 到 左倾 树 
merging 合并 左倾 树 
Lehmer, Derrick Henry 莱 默 ,德里 克 : 享 利 
Leibholz,Stephen Wolfgang 莱 博 霍 尔 效 , 斯 蒂 芬 '. 沃 
夫 冈 
Leiserson ,Charles Eric 莱 塞 森 ,查尔斯 : 埃 里 克 
Levcopoulos ,Christos ”利夫 科 保 罗斯 . 克 里 斯 托 斯 
Level of a tree node:The distance to the root 一 个 树 
节点 的 级 :到 根 的 距离 
Levenshtein, Vladimir Iosifovich 利 温 斯 坦 , 弗 拉 吉 ; 
尔 ' 约 西 夫 维 奇 
Leveque, William Judson 勒 维 克 ,威廉 .朱丹 
Levitt,Karl Norman 利 维特 ,卡尔 ' 诺 尔 曼 
Levy, Silvio Vieira Forreira 利 维 , 西 尔 维 奥 . 弗 雷 拉 
Lexicographic order 词典 编辑 顺序 
lg:Binary logarithm lg: 二 进 制 对 数 
Li Shan-Lan 李 善 兰 
Liang,Franklin Mark 深 , 富 兰 克 林 . 马 克 


”702 ， 


Library card sorting 图 书馆 卡片 排序 
Liddy, Ceorge Gordon 利 迪 ,乔治 . 苹 顿 
LIFO 后 进 先 出 , 见 Stacks 
Lin,Andrew Damon 林 , 安 德 鲁 ' 达 蒙 
Lin,Shen 林 狂 

直系 图 


Linear algorithm for median 


Lineal chart 

求 中 值 的 线性 算法 

Linear algorithms for morting ”排序 的 线性 算法 

Linear arrangements,optimum 最 优 线 性 安排 

Linear congruential sequence ”线性 同 余 序 列 

Linear hashing 线性 散 列 

Linear lists 线性 表 ,也 见 List sorting 

representation of 线性 表 的 表示 
Linear order 线性 顺序 
Linear probing 线性 探查 
optimum ”最 优 线 性 探查 

Ling,Huei 林 辉 

Linial, Nathen 利 尼 尔 , 纳 森 

Linked allocation 链接 分 配 

Linn,John Charles 林 , 约 翰 ' 查 尔 斯 

Lint,Jacobus Hendricu van 林 特 , 雅 各 布 斯 . 享 德 里 
库 斯 "万 

Lipski, Witold,Jr. 小 利 普 斯 基 , 威 托 德 

Lissajous,Jules Antoine 利沙 佐 乌 斯 , 朱 里 斯 . 安 托 伊 
尼 

List head 表 藉 

List insertion sort 表 插 入 排序 

表 合 并 排序 

List sorting ”家 排 序 

Littlewood, Dudley Ernent, 
内 斯 特 

Littlewood ,John Edenson 利 特 尔 伍德 ,约翰 : 伊 登 索 

Litwin,Samuel 利 特 文 , 萨 织 尔 

Livius, Titus 利 维 亚 斯 , 泰 特 斯 

Lloyd,Stuart Phinney 劳 埃 德 ,斯 图 尔 特 . 芬 尼 

负载 因子 

装 人 点 

Logan, Benjamin Franklin( = Tex) ,Jr， 
“富兰克林 

Logarithmic search ”对 数 查 找 


List merge sort 


利 特 尔 伍德 , 达 德 利 ' 欧 


Load factor 


Load point 
洛 根 , 本 杰 明 


Logarithms “对 数 

离散 对 数 

Logg,George Edward 洛 格 ,乔治 .爱德华 
逻辑 带 设 备 号 


discrete 


Logical tape unit number 
长 路 段 


Longest common prefix 


Long runs 

最 长 公共 前 级 

Longest increasing subsequence 最 长 递增 子 序列 

Longest match 最 长 匹配 

Loop optimization ”循环 优化 

失利 者 ,失败 者 

Louchard,Guy 洛 查 德 , 盖 伊 

Lozinskii, Eliezer Leonid Solomonovich ” 洛 津 斯 基 , 伊 
里 泽 尔 利 奥 尼 德 所罗门 诺 维 奇 

最 低位 有 效 数字 

卢 卡 斯 , 弗 明 索 斯 ， 


Losers 


LSD:Least significant digit 

Lucas, Francois Edouard Anatole 
爱 度 华 : 安 纳 托 尔 

Luczak,Tomasz Jan ” 卢 克 扎 克 ,托马斯 泽 : 简 

Lueker,George Schick ” 卢 伊 克 尔 ,乔治 :斯 希 克 

Luhn,Hans Peter 上 户 恩 , 汉 斯 "彼得 

户 卡 谢 维 区 , 简 

Lum,Vincent Yu-sun 林 汐 此 

Lynch, William Charles 林 奇 . 威廉 :查尔斯 

m-d tree,m-d 树 , 见 &-d tree 

m-d trie,m-d 检索 结构 , 见 &-d trie 

Machiavelli ,Niccole di Bernardo 考 希 亚 维 利 , 尼 科 罗 
“过 : 伯 纳 多 

MacLaren, Malcolm Donald 麦克 拉 伦 ,马尔 科 姆 * 唐 
纳 德 

MacLeod,Lain Donald Graham ”麦克 劳 德 , 伊 安 : 唐 纳 
德 格 拉 雷 厄 姆 


Lukasiewicz, Jan 


MacMahon,Percy Alexander 麦克 马 湛 , 珀 西 '* 阿 历 
山大 
Master Theorem ”麦克 马 洪 主 定 理 


宏 语言 
Magic trick ”魔法 ,魔术 技巧 
Magnetic tapes ”磁带 
reliability of 磁带 的 可 靠 性 
Magnus, Wilhelm 马 格 奴 斯 ,威廉 
Mahmoud ,Hosam Mahmoud 马赫 茂德 , 霍 沙 姆 :马赫 
刻 德 


Macro language 


人 名 和 术语 中 英 对 照 表 


Mahon ,Maurice Harlang( = Magenta)” 杞 洪 , 英 里 斯 : 
哈 朗 (二 马 根 塔 ) 

Maier,David 梅 耶 . 戴 维 

Majewski, Bohdan Stanislaw 
斯 劳 


Major index 


马 杰 斯 基 , 博 旦 .斯 坦 尼 


主 索引 , 见 Index 
Mallach, Efrem Gershon 马 拉 效 , 埃 弗 雷 姆 ' 格 尔 维 
Mallows,Colin Lingwood 马 洛 斯 , 科 林 . 林 伍德 
Maly,Kurt 马里 , 库 特 
Manacher ,Glenn Keith 马 纳 彻 尔 ,格林 : 基 思 
曼 尼 亚 克 匡 计算 机 
Mankin,Efrem S 坚 金 , 埃 弗 雷 姆 *S 
Mann,Henry Berthold 曼 , 享 利 : 伯 索 德 
Mannila, Heikki Olavi 曼 尼 拉 , 海 克基 " 奥 拉 维 
Margoliash ,Daniel Joseph ”马尔 艾 利 亚 斯 ,丹尼尔 ' 约 
瑟 夫 
Markov,Andrei Andreevich process 
烈 ` 安 德 烈 耶 维 奇 ,过 程 
Marriage theorem ”婚姻 定理 
马 萨 格 里 亚 ,乔治 
马丁 ,托马斯 ' 休 斯 
马丁 尼 效 : 帕 拉 , 康 拉 多 
马 顿 , 卡 塔 林 
Martzloff ,Jean-Claude 马 兹 洛 夫 , 吉 恩 - 克 劳 德 
Mason ,Perry 梅森 , 佩 里 
Match , search for closest 
Matching ”匹配 
Math. Comp: Mathematics of Computation (1960-),a 


Maniac Il computer 


马尔 科 夫 , 安 德 


Marsaglia, George 
Martin, Thomas Hughes 
Martinez Parra, Conrado 


Marton ,Katalin 


惟 


查找 最 接近 的 匹配 


publication of the American Mathematical Society 
since 1965; founded by the National Research 
Council of the National Academy of Sciences under 


the original title Mathematical Tables and Other 


Aids to Computation (1943 一 19$9) 1965 年 以 
来 美国 数学 学 会 的 一 种 刊物 
Mathsort ”数学 排序 
Matrix: A two-dimensional array 和 矩阵 :一 个 二 维 数组 
representation of permutations ”排列 的 矩阵 表示 
searching in a 在 一 个 矩阵 中 的 查找 
transpose of a 一 个 矩阵 的 转 转 


松永 良 绚 


Matsunaga, Yoshisuke 


SO 


人 名 和 术语 中 英 对 照 表 


CC 


Matula, David William 马 图 拉 , 戴 维 : 威 廉 

Mauchly ,John William” 莫 芯 利 , 约 翰 : 威 廉 

Maximum-and-minimum finding ”寻找 极 大 值 和 极 小 
值 

Maximum finding 寻找 极 大 值 

McAllester, Robert Linne 麦 卡 勒 斯 特 , 罗 伯 特 . 林 尼 

McAndrew,M.H. 麦 卡 安德鲁 ,M.H. 

McCabe,John， 麦 凯 布 ,约翰 

McCall ss Cook Book 麦 考 尔 的 食谱 

McCarthy,John 麦卡锡 ,约翰 

McCracken,Daniel Delbert 麦克 拉 肯 . 丹尼尔 .戴尔 


伯 特 

McCreight,Edward Meyers 麦克 赖 特 , 爱 德 华 . 近 了 了 
斯 

McDiarmid, Colin John Hunter 麦克 过 亚 米 德 , 科 林 : 
约翰 ' 汉 特 


MecGeoch ,Catherine Cole 麦克 基 奥 彻 ,卡特 林 . 科 和 尔 


Mcllroy, Malcolm Douglas 麦 基 尔 罗 伊 ,马尔 科 姆 . 道 
格拉 斯 

Mcllroy, Peter Martin 才 基 洛 尔 罗 伊 ,彼得 :马丁 

McKellar, Archie Charles 麦 凯 勒 , 阿 尔 奇 :查尔斯 

麦克 纳 , 詹 姆 斯 


麦克 纳米 , 卡 罗 里 : 马 特 


McKenna, James 


McNamee, Carole Mattern 


凡 
McNutt,Bruce 麦克 纳 特 , 布 鲁 斯 
Measures of disorder 混乱 的 量度 
Median 中 间 的 
linear algorithm for 求 中 间 值 的 线性 算法 
Median-of-three quickfind 三 者 取 中 的 快速 寻找 
Median-of-three quicksort 三 者 取 中 的 快速 排序 


Mehlhorn,Kurt 梅 尔 霍 恩 , 库 特 

Meister, Bernd 梅 斯 特 , 伯 恩 德 

Mellin, Robert Hjalmar, trans{forms 
机 尔 马 ,转换 


Mendelson , Haim 


梅林 ,罗伯特 : 茸 


门 德尔 森 , 海 伊 姆 

合并 交换 排序 

合并 插入 排序 

合并 数 

Merge patterns, 合 并 模式 , 见 Balanced merge, Cascade 


Merge exchange sort 
Merge insertion sort 


Merge numbers 


merge, Oscillating sort, Polyphase merge. 


/04 ， 


dual to distribution patterns， 对 偶 于 分 布 模式 
for disks 磁盘 的 合并 模式 

磁带 的 合并 模式 

最 优 合 并 模式 

合并 模式 小 结 

tree tepresentation of 合并 模式 的 树 表示 
vector representation of 合并 模式 的 向 量 表示 
合并 替换 排序 


Merge sorting; 合并 排序 , 见 List merge, Natural 


for tapes 


optimum 


summary 


Merge replacement sort 


merge, Straight merge 


external 外 部 合并 , 见 Merge patterns 
Merge-until-empty strategy 合并 直到 成 空 策 略 
Merging 合并 

&- way -路 合并 

networks for 合并 的 网 络 

with fewest comparisons 通过 最 少 比 较 的 合并 


METAFONT METAFONT 系统 ,用 于 生成 各 种 形 
式 的 字符 

METAPOST METAPOST 系统 ,用 于 生成 图 解 的 系 
统 

Meyer,Curt 迈 耶 , 柯 特 

Meyer auf der Heide, Friedhelm 
德 , 弗 里 德 海 姆 

Middle square 平方 取 中 

Middle third 居中 的 三 分 之 一 

小 迈 尔 斯 , 欧 内 斯 特 ' 珀 西 

Miltersen, Peter Bro 米尔 特 森 ,彼得 ' 布 洛 

极 小 极 大 值 

Minimean 极 小 均值 


Minimum average cost 


迈 耶 ' 奥 夫 ' 德 ' 海 


Miles, Ernest Percy , Jr. 


Minimax 


极 小 平均 费用 
极 小 比较 算法 
合并 的 极 小 比较 算法 
for searching 查找 的 极 小 比较 算法 
选择 的 极 小 比较 算法 
for sorting 排序 的 极 小 比较 算法 
Minimum path length 极 小 通路 长 度 
weighted 带 权 的 极 小 通路 长 度 
Minimum-phase tape sorting 极 小 状态 带 查 找 
极 小 空间 算法 
合并 的 极 小 空间 算法 


Minimum-comparison algorithms 


for merging 


for selection 


Minimum-space algorithms 


for merging 


for rearranging 重新 安排 的 极 小 空间 算法 
选择 的 极 小 空间 算法 

for sorting ”排序 的 极 小 空间 算法 

for stable sorting ”稳定 排序 的 极 小 空间 算法 
Minimum-stage tape sorting 极 小 阶段 磁带 排序 
Minimum-time algorithms 极 小 时 间 算 法 
合并 的 极 小 时 间 算 法 
for sorting ”排序 的 极 小 时 间 算 法 


for selection 


for merging 


Minker,Jack 明 克 尔 , 杰 克 
MinuteSort 一 分 钟 排 序 算法 


Mises, Richard, Edler von 米 塞 斯 , 理 查 德 ' 埃 德勤 

拼 借 的 名 字 

Mitchell, Oscar Howard 米 特 彻 尔 ,奥斯卡 . 和 霍华德 

MIX computer: A hypothetical machine defined in Sec- 
tion 1.3 ”MIX 计算 机 

MIXAL: The MIX assembly language 
的 汇编 语言 

MIXT tape units MIXT 带 设 备 

MIXTEC disks and drums MIXTEC 磁盘 和 磁 鼓 

富川 正弘 


莫 比 乌 斯 , 奥 古 斯 特 : 费 


Misspelled names 


MIXAL: MIX 


Miyakawa, Masahiro 
Mobius, August Ferdinand ， 
迪 南 德 

function y(n) 葛 比 乌 斯 函数 
Modified external path length 修改 的 外 部 通路 长 度 
Moffat, Alistair 英法 特 , 阿 里 斯 太 尔 
Molodowitch, Mariko ” 莫 洛 多 维 奇 ,马里 区 
单调 子 序列 
Monotonicity property 单调 性 的 性 质 
Manting ” 芒 廷 , 见 Schulte Monting 


Monotonic subsequences 


Moore, Edward Forrest 


Moore School of Electrical Engineering 稳 尔 电表 工 程 
学 校 

Morgenthaler ,John David 莫 根 撒 勤 ,约翰 ' 戴 维 

Morris, Robert ”英里 斯 ,罗伯特 


英里 森 , 唐 纳 德 :罗斯 
莫 尔 斯 , 基 缪 尔 ， 


Morrison ,Donald Ross 


Morse,Samuel Finley Breese, code 


芬 利 :布鲁斯 代码 
Mortenson ,John Albert 莫 顿 森 ,约翰 . 阿 尔 伯 特 
Moser,Leo 葛 泽 , 利 奥 


最 高 有 效 位 数 


Most-significant-digit-first radix sort 


人 名 和 术语 中 英 对 照 表 





字 优 先 基数 排序 
Motzkin ,Theodor Samuel 莫 茨 金 , 西 奥 多 ' 基 缕 尔 
移动 到 前 边 带 启 发 式 的 
最 高 有 效 位 数字 


Move-to-front heuristic 
MSD:Most significant digit 
Muir,Thomas 米尔 ,托马斯 
马 林 ,詹姆斯 ,克文 

多 属性 检索 , 见 Secondary 





Mullin, James Kevin 
Multiattribute retrieval 
key retrieval 
Moultidimensional binary search trees ” 多维 二 义 查 找 
树 , 见 &-d trees 
多 维 检索 结构 , 见 &-d tries 
多 头 气泡 排序 
多 键 码 快 速 排序 
Mnultilist system 多 表 系 统 
多 项 式 系数 
多 表 插 入 排序 
多 精度 背 数 
Multiples of an irrational number mod 1 
在 1 之 下 模 的 多 重 性 
Multiprecision comparison 
Multiprocessing ”多 道 处 理 
多 卷 简 文 件 
多 重 集合 :类 似 于 一 个 集合 ,但 元 素 可 出 现 
= 
ordering ”对 多 重 集合 排 顺 序 
多 重 集合 的 排列 
多 重 集合 的 和 与 并 
多 值 逻 辑 
多 路 树 ,也 见 Tries 
多 字 键 码 
芒 罗 ,詹姆斯 " 伊 因 
穆 恩 区 , 理 查 德 
人 


Multidimensional tries 
Multihead bubble sort 
Multikey quicksort 





Multinomial coefficients 
Multiple list insertion sort 


Multiple- precision constants 


2 天理 姓 


多 精度 比较 


Multireel files 


Multiset 


permutations 

sum and union 
Multivalued logic 
Multiway trees 
Multiword keys 
Munro, James lan 
Muntz, Richard 
Muroga, Saburo 
Music 音乐 
Musser, David Rea 墨 基 尔 , 戴 维 : 里 亚 
Myers, Eugene Wimberly,Jr 小 迈 耶 斯 ， 尤 金 ' 温 贝 利 
Nagler, Harry 纳 格 勒 , 蛤 里 
中 山 正 
纳 俄 , 西 米 昂 (= 英 尼 ) 


"ZO. 


Nakayama, Tadasi 


Naor, Simeon( = Moni) 


人 名 和 术语 中 英 对 照 表 





Narasimhan, Balasubramanian 纳 拉 西 姆 罕 ' 巴 拉登 布 
拉 马 尼 安 
Natural correspondence between forests and binary trees 
树林 与 二 叉 树 之 间 的 自然 对 应 
自然 合并 排序 
自然 选择 
最 接近 的 邻居 


Natural merge sort 
Natural selection 
Nearest neighbors 
Needle 和 针 

负 的 链接 

一 个 点 的 邻居 

内 马 特 ,马里 - 安 尼 : 卡 马 


Negative links 


Neighbors of a point 





Neimat, Marie- Anne Kamal 
尔 
内 特 托 , 奥 托 : 欧 


Nelson, Raymond John 

Netto, Otto Erwin Johannes Eugen 
文 ` 约 输 尼 斯 尤 金 

Networks of comparators， 比较 需 的 网 络 

for merging ”用 于 合并 的 比较 右 网 络 

用 于 排列 的 比较 妖 网 络 

for selection ”用 于 选择 的 比较 器 网 络 

for sorting ”用 于 排序 的 比较 右 网 络 

原始 的 比较 器 网 络 

standard 标准 比较 句 网 络 

with minimum delay 具有 极 小 延迟 的 比较 器 网 络 

工作 站 网 络 

Neumann ,John von( = Margittai Neumann Janos) 庄 
伊 曼 ,约翰 ' 汉 (= 玛 奇 特 泰 ' 诺 依 曼 ' 贾 诺 斯 ) 

Newcomb ,Simon 纽 科 姆 ,西蒙 

Newell,Allen 纽 厄 尔 , 阿 伦 

纽曼 ,唐纳德 约瑟夫 

Nielsen ,Jakob 尼尔森 : 雅 各 布 

Nievergelt,Jirg 尼 弗 格 尔 特 , 朱 尔格 

Nijenhuis, Albert 尼 詹 休 斯 , 阿 尔 伯 特 

Nikitin, Andrei lvanovich” 尼 基 廷 , 安 德 烈 . 伊 几 诺 维 
奇 

Nitty-gritty 事情 的 真相 ,本 质 

Nodine, Mark Howard 诺 迪 尼 ,马克 :霍华德 

Non-messing-up theorem 无 混乱 定理 


for permutations 


primitive 


Networks of workstations 


Newman, Donald Joseph 





Nondeterministic adversary 不 确定 的 对 手 
Norlund, Niels Erik 庄 伦 德 . 奈 尔 斯 . 埃 立 克 





标准 离 差 


Normal deviate 


* 700 ， 


Normal distribution ,approximately 近似 的 正 态 分 布 
Norwegian language 挪威 语 

Noshita,Kohei 墅 下 浩 平 

Notations ,index to ”记号 索引 


Novelli ,Jean-Christophe 诺 维 利 , 吉 恩 -克里斯托弗 
NOW-Sort NOW -排序 
NP-complete problems ”NP 一 完全 问题 


N 排序 


Null permutation 


Nsort 


空 排列 


Number-crunching computers ” 咬 嚼 数字 的 计算 机 
Numerical instability 数值 的 不 稳定 性 





奈 伯 格 ,克里斯托弗 
奥 伯 赫 特 廷 格 尔 , 弗 里 区 
O 〇 ”Connor,Daniel J]， 奥 康 纳 尔 , 丹 尼 尔 *J 
Octrees ” 八 叉 树 


Odd-even merge 


Nyberg , Christopher 
Oberhettinger , Fritz 


Oblivious algorithms 


奇偶 合并 
Odd-even transposition sort 
奇 排列 
Odell, Margaret K ” 奥 德 尔 , 玛 格 丽 特 :KK 
Oderfeld,Jan 奥 德 尔 非 尔 德 , 简 

Odlyzko,Andrew Michael 奥 德 里 效 戈 , 安 德 烈 .迈克 


奇 伪 转 量 排序 


Odd permutations 


尔 
Oettinger, Anthony Gervin 马 特 廷 格 尔 , 安 托尼 : 杰 
尔 文 


Oldham ,Jeffrey David 奥 尔 德军 , 杰 弗 里 . 戴 维 
Olivie ,Hendrik Johan 奥 里 维 , 训 德里 克 : 约 翰 
Olson,Charles A. 奥 尔 森 ,查尔斯 .A 


Omega network 欧米 稍 网 络 

One-sided height-balanced trees 一 边 高 度 平衡 树 
One-tape sorting 一 条 带 排 序 

O 〇 ”Neil, Patrick Eugene 奥 奈 尔 , 帕 克 里 克 : 尤 金 
Ones”complement notation 一 列 补 码 的 记号 


Online merge sorting ” 联 杞 合并 排序 
Open addressing ” 开 式 寻 址 
optimum ”最 优 开 式 寻 址 
操作 系统 
循环 的 优化 
测试 的 优化 
最 优 二 又 查找 树 


Operating systems 
Optimization of loops 
Optimization of tests 


Optimum binary search trees 


最 优 数字 查找 树 

Optimum exchange sorting ”最 优 交换 排序 

Optimum linear arrangements ”最 优 线性 安排 

Optimum linear probing ”最 优 线性 探查 

最 优 链接 检索 结构 

最 优 合并 模式 

Optimum open addressing 最 优 开 式 寻 址 

Optimum permutations ”最 优 排列 

Optimum polyphase merge 最 优 多 阶段 合并 

Optimum searching 最 优 查找 

Optimum sorting ”最 优 排 序 

OR(bitwise or) ”OR ( 按 二 进位 的 或 ) 运 算 

Order ideals ”次 序 理想 

次 序 关 系 

Order statistics ”次 序 统计 

Ordered hashing ”顺序 的 散 列 

Ordered partitions ”顺序 的 分 划 

Ordered table, searching an 查找 一 个 顺序 表 

排列 的 顺序 

风琴 管 次 序 

Oriented trees 有 疝 树 

Orosz,Gaubor 奥 罗 斯 泽 ,加 博 尔 

O’” Rourke,Joseph 奥 罗 和 尔 克 ' 约 瑟 夫 

正 交 范围 查询 

振荡 基数 排序 

振荡 排序 

Overflow ,arithmetic 算术 溢出 

B 树 中 的 洲 出 

散 列表 中 的 溢出 

Overmars, Markus( = Mark)Hendrik 奥 弗 尔 马 斯 , 马 
尔 库 斯 (= 马克) 亨 德 里 克 

Own coding 特种 编码 


Optimum digital search trees 


Optimum linked trie 


Optimum merge patterns 


Order relations 


Ordering of permutations 


Organ-pipe order 


Orthogonal range queries 
Oscillating radix sort 


Oscillating sort 


in B-trees 


in hash tables 


P-way merging PP 路 合并 

Packing 包装 

Paging 分 页 

Pagodas 塔 

Paige, Robert Allarr 一 派 格 , 罗 伯 特 :阿拉 尔 
Painter,James Allan 佩 因 特 , 詹 姆 斯 阿 伦 
Pairing heaps 双 堆 


人 名 和 术语 中 英 对 照 
Pak, Igor Markovich 帕克 , 伊 采 尔 ' 马 科 维 奇 
Palermo, Frank Pantaleone 佩 勒 莫 , 弗 朋克 : 潘 塔 里 
昂 
Pallo ,Jean Marcel 由 尔 罗 , 吉 恩 : 马 基 尔 
Panny, Wolfgang Christian 三 番 尼 , 沃 尔 弗 岗 : 克 里 
斯 蒂 安 
Papernov, Abram Alexandrovich 佩 珀 诺 夫 ,阿布 兰 : 
阿 历 山 德 洛 维 奇 
Pappus of Alexandria 阿 历 山 德里 亚 的 则 普 斯 
Parallel processing “并 行 处 理 
合并 并 行 处 理 
searching 查找 并 行 处 理 
sorting ”排序 并 行 处 理 
Parberry,Ian 帕 贝 利 , 伊 思 
Pardo 帕 多 , 见 Trabb Pardo 
Pareto, Vilfredo ” 帕 里 多 ,维尔 非 里 多 
帕 里 多 分 布 
Parker, Ernest Tilden 由 克 , 欧 内 斯 特 ' 莹 尔 登 
Parkin ,Thomas Randall 由 金 ,托马斯 . 兰 道 尔 
Parking problem ”停车 问题 
Parsimonious algorithms 吝 瘟 的 算法 
Partial match retrieval ”部 分 匹配 检索 
Partial ordering ” 偏 序 
排序 的 偏 序 
分 划一 交换 排序 
Partitioning a file 划分 一 个 文件 
划分 成 三 个 块 
一 个 集合 的 分 划 
一 个 整数 的 分 划 


merging 


Pareto distribution 


of permutations 


Partition-exchange sort 


into three blocks 
Partitions of a set 
Partitions of an integer 
次 序 的 分 划 

plane 平面 的 分 划 
Patashnik ,Oren 由 塔 什 里 克 , 奥 伦 


Patents 专利 杂志 


Paterson , Michael Stewart 


ordered 


帕 特 森 , 米 软 尔 ' 斯 图 尔 特 
一 棵 树 的 通路 长 度 , 见 External 
path length, Internal path length 
minimum 极 小 通路 长 度 
weighted 加 权 通 路 长 度 
weighted by degrees 通过 度 来 加 权 的 通路 长 度 
Patricia 一 种 特殊 的 树 结构 


Path length of a tree 
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人 名 和 术语 中 英 对 有 照 


由 特 , 耶 尔 ' 南 斯 
文中 的 模式 匹配 
Patterson ,David Andrew “由 特 森 , 戴 维 . 安 德 鲁 
Patterson ,George William 由 特 森 ,乔治 .威廉 
五 边 形 数 
百 分 位 数 , 见 Median 
Perfect balancing ”完全 的 平衡 
Perfect distributions ”完全 的 分 布 
Perfect hash functions 完全 的 散 列 函数 
Perfect shuffles 完全 的 洗 牌 
Perfect sorters ”完全 的 排序 程序 
Periodic sorting network 周期 的 排序 网 络 
Perl, Yehoshua 佩 尔 , 耶 霍 舒 亚 
Permanent 永久 的 
排列 曲面 体 
就 地 排列 
Permutation networks 排列 网 络 
Permutations ”排列 
2-ordered 二 阶 排列 
cycles of 排列 的 循环 
enumeration of 排列 的 枚 举 
even 偶 排 列 
factorization of 排列 的 因 式 分 解 
fixed points of 排列 的 不 动 点 
indexes of 排列 的 下 标 
intercalation product of 排列 的 插入 
inverses of ”排列 的 道 
inversions of 排列 的 反 序 , 见 Invension tables, Inver- 


Patt, Yale Nance 


Pattern matching in text 


Pentagonal numbers 


Percentiles 


Permutahedron 


Permutation in place 


sions 
lattice of 排列 的 格 
matrix representations of ”排列 的 矩阵 表示 
一 个 多 重 集合 的 排列 
optimum ”最 优 排 列 
partial orderings of ”排列 的 偏 序 
pessimum 悲观 的 排列 
readings of 排列 的 阅读 
runs of 排列 的 路 段 
signed ” 带 符 号 的 排列 
two-line notation for 排列 的 两 行 记号 
持久 的 数据 结构 


of a multiset 


Persistent data structuren 
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混乱 的 技巧 
悲观 列 二 又 查找 树 
彼得 ,劳伦斯 : 约 


Perturbation trick 

Pessimum binary searel trees 

Peter, Laurence Johnston principle 

Peterson, William Wesley 彼得 森 , 威 廉 : 威 韦 斯 利 

Petersson,Ola 彼得 森 , 奥 拉 

Pevzner,Pavel Arkadjevich ” 佩 夫 泽 纳 尔 , 佩 维尔 : 阿 
尔 加 德 杰 维 奇 

Peyster ,james Abercrombie de , Jr. 
斯 ' 阿 贝尔 克隆 比 ' 德 

Philco 2000 computer 菲 尔 科 2000 计算 机 

Picard , Claude Francois 皮卡 德 , 克 劳 德 . 弗 朗 索 伊 斯 

Ping-pong tournament 乒乓 球 锦标 赛 

Pinzka, Charles Frederick 平 效 卡 , 查 尔 斯 . 弗 雷 德里 
殉 


Pipeline computers 


小 彼 斯 特 , 詹 姆 


流水 线 计算 机 

Pippenger, Nicholas John ” 彼 普 绢 格 尔 , 尼 古 拉 斯 : 约 
办 

Pitfalls 陷 井 ,圈套 

Pittel, Boris Gershon 彼 特 尔 , 波 利 斯 . 杰 尔 松 

PL/I language PL/1 程序 语言 


Plane partitions ”平面 分 划 


Plankalkiil 普兰 卡尔 库 尔 

Plaxton,Charles Gregory 普 拉 克 顿 ,查尔斯 ' 格 里 区 
里 

Playing cards ”扑克 有 牌 

Pliicker,Julius 普 拉 克 尔 , 朱 利 尤 斯 


Poblete Olivares, Patricio Vicente ” 坡 布 勒 特 . 奥 利 瓦 
利 斯 , 帕 特 里 西 奥 ' 维 森 特 

Pocket sorting “容器 排序 , 桶 排序 

Podderjugin, Viktor Denisowitsch” 彼 德 尔 朱 金 , 维 克 
多 : 德 尼 索 维 特效 

Pohl, Ira Sheldon 波 尔 , 艾 拉 谢 尔 登 

Pohlig ,Stephen Carl 波 立 格 ,斯 蒂 芬 .卡尔 

Point quadtrees ”点 四 叉 树 


Poisson ,Simeon Denis, distribution 


泪 松 , 西 来 恩 ' 丹 


尼斯 分 布 
transform ” 泊 松 变换 
Polish prefix notation 波兰 前 缀 记号 
Pollard ,John Michael 波 拉 德 . 约 其 迈克尔 


人 名 和 术语 中 英 对 照 


OO -一 一 


波 利 亚 ,乔治 

Polygons,regular 正规 的 多 边 形 

多 项 式 算术 

Polynomial hashing ”多 项 式 散 列 

Polyphase merge sorting ”多 阶段 合并 排序 
Caron variation 卡 伦 形式 的 多 阶段 合并 排序 
optimum 最 优 多 阶段 合并 排序 
read-backward 向 后 读 多 阶段 合并 排序 
tape-splitting 多 阶段 合并 排序 带 的 分 开 

Polyphase radix sorting ”多 阶段 基数 排序 

Pool, Jan Albertus van der 普尔 ,人 简 ， 阿尔 伯 特 期. 厄 . 

德 

Pool of memory 存储 池 

Poonen,Bjorn  ” 普 能 , 布 约 恩 

Porter ,Thomas K 波 特 ,托马斯 

Post office 邮局 

Post-office trees ”邮局 树 

Posting ”置信 , 见 Insertion 

Pouring liquid 倾注 液体 

Power of merge 合并 的 能 力 , 见 Growth ratio 

Powers,James 鲍 尔 斯 ,詹姆斯 

Pratt, Richard Don 普 拉 特 , 理 查 德 顿 

Pratt,Vaughan Ronald 普 拉 特 , 沃 恩 ' 罗 纳 德 
sorting method 普 拉 特 排序 方法 

Prediction ”预测 , 见 Forecasting 


Polya ,Gyargy( = George) 


Polynomial arithmetic 


Preferential arrangements ”优先 安排 
Prefetching ” 预 取 
Prefix ”前 级 
Prefix code ” ”前缀 码 
for all nonnegative integers ”对 于 所 有 非 负 整 数 的 
预 取 码 
Prefix search” 前缀 查找 , 见 Trie search 
Preorder merge 前 根 顺 序 合并 
Prestet,Jean 普 雷 斯 提 特 , 琼 
Prime numbers 质数 ,素数 
Primitive comparator networks 本 原 排 序 网 络 
Principle of optimality 最 优 性 原理 
Pring,Edward John 背 林 ,爱德华 ' 约 输 
Prins,Jan Fokko 普 林 斯 , 简 :福元 区 
Priority deques ”优先 双 队 


Priority queues 优先 队 
merging 合并 优先 队 
Priority search trees ”优先 查找 树 
Probability density functions ”概率 密度 函数 
Probability distributions ”概率 分 布 
beta 概率 分 布 
binomial 二 项 式 概率 分 布 
fractal 分 数 概 率 分 布 
normal 正 态 概率 分 布 
Pareto 概率 分 布 
Poisson” 泊 松 概 率 分 布 
随机 概率 分 布 
uniform ”一致 概率 分 布 
Yule 尤 利 概率 分 布 
Zipf Zipf 概率 分 布 
Probability generating functions 概率 生成 函数 
Prodinger, Helmut 普罗 定格 尔 , 赫 尔 默 特 
Product of consecutive binomial coefficients 连续 的 二 
项 式 系数 的 乘积 
Proof of algorithms 算法 的 证 明 
Prusker, Francis” 普 鲁 斯 克 尔 , 弗 关 西 斯 
Prywes, Noah Shmarya 普 里 威 斯 , 诺 亚 ' 斯 马里 亚 
Pseudolines ”虚拟 线 
普 赛 函数 yj(z) 
Puech, Claude Henri Clair Marie Jules 
享 利 .克莱尔 ' 玛 丽 ' 朱 利 斯 
Pugh, William Worthington ,Jr. 
辛 顿 
Punched cards ”穿孔 卡片 


random 


Psi function 小 (z) 


普 齐 ; 殉 益 


可 


. 
RN 


小 普 格 ,威廉 ' 沃 特 


q-multinomial coefficients q 多 项 式 系数 
q-nomial coefficients q 项 式 系数 
q-series q 级 数 

Quadrangle inequality ”四边形 不 等 式 
Quadratic probing ”二 次 探查 

Quadratic selection ”二 次 选择 

Quadruple systems ”四 元 组 系统 
四 又 树 

Queries 查询 


Questionnaires ”调查 表 


Quadtrees 


ZOU 


人 名 和 术语 中 英 对 有 照 





Queues 队 

Quickfind 快速 寻求 

三 者 取 中 的 快速 寻求 
快速 排序 

binary 二 进 制 快速 排序 , 见 Radix exchange 
三 者 取 中 的 快速 排序 
multikey 多 键 码 的 快速 排序 

带 有 相等 键 码 的 快速 排序 


median-of-three 


Quicksort 


median-of-three 


with equal keys 


Rabbits ”人 免 子 
Rabin, Michael Oser 拉 宾 ,迈克 尔 ' 奥 塞 
Radix-2 sorting 基数 2 排序 
基数 交换 排序 
带 有 相等 键 码 的 基数 交换 排序 
Radix insertion sort ”基数 插入 排序 
Radix list sort ”基数 表 排 序 
Radix sorting ”基数 排序 
dual to merge sorting 与 合并 排序 对 偶 的 基数 排序 
Radke,Charles Edwin 拉 德 克 ,查尔斯 . 埃 德 文 
Riiha,Kari-Jouko 拉 伊 哈 : 加 里 - 约 戈 
Railway switching ”铁路 开关 
Rains,Eric Michael 拉 因 斯 , 埃 里 克 : 匹 克 尔 
Rais, Bonita Marie 赖 斯 , 博 尼 塔 .马里 
Raman Rajeev 拉 曼 : 拉 吉 夫 
Raman,Venkatesh 拉 友 , 文 卡 提 斯 
拉 马 南 , 普 拉 卡 斯 ' 威 利 


Radix exchange sort 


with equal keys 


Ramanan, Prakash Viriyur 


尤 尔 
Ramanujan Jyengar,Srinivasa ” 拉 马 奴 燕 , 埃 因 加 尔 ， 
斯 里 尼 瓦 沙 


拉 马 奴 燕 函数 Q(n) 
Ramshaw,Lyle Harold 兰 肖 , 利 里 . 哈 罗 德 
Random data for sorting 用 于 排序 的 随机 数据 


function Q (7 ) 


Random probability distribution ”随机 概率 函数 
Random probing ,independent 独立 的 随机 探查 


with secondary clustering 带 有 辅助 从 集 的 随机 探 
查 
Randomized adversary: An adversary that flips coins 
随机 化 的 对 手 ,投掷 硬币 的 一 个 对 手 
随机 算法 
随机 二 叉 查 找 树 


Randomized algorithms 


Randomized binary search trees 


“VIA 人 


随机 数据 结构 
Randomized striping ”随机 去 除 


Randomized data structures 


Randrianarimanana,Bruno 兰 德里 亚 纳 里 马 纳 纳 ， 布 


鲁 诺 
Raney,George 拉 尼 , 乔 治 
Range queries ”范围 查询 


RANK field RANK 字段 

Ranking 排列 , 见 Sorting 

雷 弗 ,诺尔 曼 

Ravikumar, Balasubramanian 
拉 马 尼 安 

Rawlings, Don Paul 


Raver, Norman 


拉 维 库 马 尔 , 巴 拉 舒 布 


劳 令 斯 , 顿 , 保 罗 

Ray Chaudhuri, Dwijendra Kumar 雷 * 曹 度 利 , 德 维 
简 德 拉 : 库 马尔 

Read-back check 向 后 读 校 验 

Read-backward balanced merge 向 后 读 平 衡 合并 

向 后 读 级 联合 并 

癌 后 读 多 阶段 合并 

问 后 读 基数 排序 

加 前 读 振 萝 排序 

回 后 读 带 

Readings of a permutation 一 个 排列 的 读 入 

实时 应 用 

一 个 字 的 重新 安排 , 见 

Permutations of a multiset 

就 地 重新 安排 记录 

重新 平衡 一 棵 树 ,也 见 Reorganiz- 


Read-backward cascade merge 
Read-backward polyphase merge 
Read-backward radix sort 
Read-forward oscillating sort 


Reading tape backwards 


Real-time applications 


Rearrangements of a word 


Rearranging records in place 
Rebalancing a tree 
ing 
Reciprocals 倒数 
Records 记录 
Recurrence relations, techniques for solving 解 递 归 关 
系 的 技术 
Recurrence relations for strings 
Recursion induction 递归 归纳 
Recursion versus iteration ”递归 和 迭代 
Recursive methods 递归 方法 
Red-black trees 红 - 黑 树 
Redundant comparisons “ 宛 余 比较 
Reed,Bruce Alan 里 得 ,布鲁斯 . 艾 伦 
Reference counts 访问 计数 


串 的 递归 关系 


反射 网 络 

里 格 茶 尔 , 米 勒 利 

正规 多 边 形 

菜 因 纳 , 维 克 多 斯 苞 尔 
Reingold,Edward Martin ” 莱 因 苹 尔 德 ,爱德华 .马丁 
Relaxed heaps 松弛 堆 
Remington Rand Corporation 
撤消 , 见 Deletion 


Reorganizing a binary tree 


Reflection networks 
Regnier, Mireille 
Regular polygons 


Reiner, Victor Schorr 


雷 明 顿 " 兰 德 公 


到 


Removal 
重新 组 织 一 个 二 又 树 
替代 选择 
重复 的 块 ( 区 组 ) 

重复 指令 


Replacement selection 
Replicated blocks 
Replicated instructions 
Reservoir 水 库 
Restructuring 重新 构造 

数据 的 反 排 
颠倒 的 词典 顺序 


Reversal of data 

Reverse lexicographic order 

重 绕 带 
里 本 波 伊 姆 ,保罗 

Rice,Stephan Oswald 赖 期 ,斯蒂芬 ' 奥 斯 瓦 德 

Richards,Ronald Clifford 理 查 德 , 罗 纳 德 . 克 里 弗 德 

里 效 蒙 德 ,劳伦斯 ' 布 鲁 


Rewinding tape 


Ribenboim ,Paulo 


Richmond, Lawrence Bruce 
斯 

Riemann ,Georg Friedrich Bernhard ,integration 和 歼 坚 ， 
乔治 . 弗 雷 德里 奇 ' 伯 恩 哈 德 黎 曼 积分 

里 塞 尔 , 汉 斯 . 埃 瓦 尔 

右 穿 线 的 树 

Right-to-left(or left-to-right) maxima or minima 自 右 
至 左 (或 和 目 左 至 右 ) 的 极 大 或 极 小 

Riordan ,John 赖 尔 登 ,约翰 

缩减 指令 系统 计算 机 

赖 六 ,起 利 

Rivest, Ronald Linn 里 夫 斯 特 , 罗 纳 德 林 

RobertssDavid Caron 罗伯特 , 戴 维 : 卡 伦 

Robin Hood hasbjrg 罗 宾 : 霍 德 散 列 

Robinson,Gilbert de Beauregard 鲁 宾 逊 , 吉 尔 伯 特 ， 
德 . 博 罗 加 德 

Robson ,john Michael 


Riesel, Hans Ivar 


Right-threaded trees 


RISC computers 
Rising, Hawley 


罗 伯 进 ,约翰 .迈克尔 
罗 伯 斯 特 , 纳 撒 尼 尔 
Rodgers, William Calhoun 罗杰斯 ,威廉 :卡尔 八 思 
罗 德 里 蕊 斯 ,本 杰 明 '. 奥 


Rochester ,Nathaniel 


Rodrigues, Benjamin Olinde 


人 名 和 术语 中 英 对 照 


林 德 
Roebuck ,Alvah Curtis 罗 巴 克 ,阿尔 瓦 ' 柯 蒂 斯 
Rogers, Lawrence Douglas ”罗杰斯 ,劳伦斯 :道格拉斯 
罗 尼 特 , 汉 斯 
Rollett, Arthur Percy 罗勒 特 , 阿 瑟 : 珀 西 
Rooks 和 鲁 殉 斯 
Rose,Alan 罗斯 , 阿 伦 
Roselle,David Paul 罗 塞 尔 , 戴 维 . 保 罗 
罗 森 斯 提 尔 , 皮 埃 尔 
Resler,Uwe 罗斯 特 , 乌 维 
Rosser ,John Barkley 罗 塞 ,约翰 :巴克 利 
Rost,Hermann 罗斯 特 , 赫 尔 曼 
在 一 棵 二 叉 树 中 的 旋转 


Robnert, Hans 


Rosenstiehl ,Pierre 


Rotations in a binary tree 
double 双 倍 旋转 

单 旋转 

罗 登 姆 ,多 伦 

罗 巷 , 海 因 里 希 :' 奥 古 斯 特 

Rouché,Eugene,theorem 和 鲁 彻 , 尤 金 定理 

劳 拉 : 非 里 特 , 萨 尔 瓦 多 

移动 指针 

Rovner Paul David 罗 夫 纳 : 保 罗 : 戴 维 

Royalties, use of 特许 权 的 用 法 

鲁 宾 , 赫 尔 曼 

鲁 道 夫 ,劳伦斯 ' 塞 特 

一 个 排列 的 路 段 

Russell, Robert C” 拉 塞 尔 ,罗伯特 :C 

Russian roulette 俄罗斯 轮 盘 赌 

Rustin,Randall 拉 斯 丁 . 兰 达 和 尔 


Single 
Rotem , Doron 


Rothe, Heinrich August 


Roura Ferret, Salvador 


Roving pointer 


Rubin, Herman 
Rudolph, Lawrence Set 


Runs of a permutation 


Sable ,Jerome David 了 萨 珀 尔 , 杰 罗 姆 : 戴 维 
Sackman,Bertram Stanley 了 萨 克 曼 , 伯 特 伦 : 斯 坦 利 
芒 根 ,布鲁斯 埃 利 

萨 杰 尔 ,托马斯 ' 乔 舒 亚 
Sagiv, Yehoshua Chaim ” 萨 吉 夫 , 耶 约 斯 华 查 依 姆 
Saks,Michael Ezra 萨克斯, 迈克尔. 埃 泽 拉 

萨 殉 维特 ,沙龙 ' 卡 罗 林 
萨 尔 维 ,布鲁诺 

Samadi, Behrokh 萨 朱 迪 , 贝 洛克 

萨 米 特 , 哈 南 

样品 排序 


Sagan, Bruce Eli 


Sager, Thomas Joshua 


Salveter ,Sharon Caroline 


Salvy, Bruno 


Samet, Hanan 


Samplesort 
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Sampling ”抽样 

Samuel, son of Elkanah 塞 缪 尔 , 埃 尔 卡 纳 的 儿子 

Samuel, Arthur Lee 塞 缪 尔 , 阿 瑟 ' 李 

Sandelius,David Martin ” 桑 德 里 厄 斯 , 戴 维 . 马 丁 

桑 科 夫 , 戴 维 ' 劳 伦 斯 

萨 尔 那 克 , 奈 尔 ' 埃 沃 尔 

萨 松 , 阿 泽 拉 

satellite information:Record minus key 附属 信息 : 除 
键 码 之 外 的 记录 

Satisfiability 满足 性 

Saul,son of Kish ”了 萨 罗 , 基 斯 的 儿子 

Sawtooth order 龟 齿 次 序 

Sawyer,Thomas 索 耶 尔 ,托马斯 

SB-tree SB- 树 

SB-tree SB- 树 

Scatter storage ” 散 列 存储 

Schachinger, Werner 施 查 辛 格 ,维尔 纳 

Schiffer ,Alejandro Alberto 萨 菲 尔 , 阿 列 詹 德 .阿尔 
伯 特 

Schaffer, Russel Warren 萨 菲 尔 , 拉 塞 尔 . 沃 伦 

Schay ,Geza,Jr. 小 萨 伊 , 杰 扎 

申 施 迪 德 , 克 雷 德 . 尤 金 

Scherk,Heinrich Ferdinand 谢 尔 克 , 享 里 奇 . 费 迪 南 


pe 
Mm 


Schkolnick, Mario 施 科 尔 尼克 ,马里 奥 
施 莱 格 尔 ,斯坦 


Sankoff, David Lawrence 
Sarnak ,Neil Ivor 


Sasson , Azra 


Schensted , Craige Eugene 


Schlegel, Stanislaus Ferdinand Victor 
尼斯 劳 斯 ' 黄 迪 南 德 ' 维 克 多 

Schlumberger, Maurice Lorrain 施 卢 姆 伯 杰 , 莫 里 斯 ， 
洛 兰 

Schmidt ,Jeanette Pruzan 施 米 特 , 吉 恩 尼 特 . 普 卢 赞 

Schneider,Donovan Alfred 施 奈 德尔 ,多 庶 万 .阿尔 
弗 雷 德 

Schosnhage,Arnold 舍 恩 哈 德 ,阿诺德 

索 特 ,里 尼 . 皮 埃 尔 

Schreier,Jozef 施 赖 尔 , 佐 泽 夫 

舒 尔 特 * 芒 廷 , 朱 尔 金 

Schur, Issai,function 舒 尔 , 伊 斯 赛 ,函数 

舒 曾 伯 杰 , 马 塞 尔 ' 保 罗 

Schwartz,Eugene Sidney 施 瓦 茨 , 尤 金 .悉尼 

Schwartz,Jules 施 瓦 次 , 朱 尔 斯 


A 


Schott, René Pierre 


Schulte Monting ,Jiirgen 


Schiitzenberger, Marcel Paul 


Scoville, Richard Arthur 斯 科 维 尔 ， 理 查 德 “ 阿 瑟 
Scrambling function 疏 树 函数 
Search-and-insertion algorithm 查找 和 插入 算法 
Searching 查找, 见 External searching ，Internal 
searching; Static table searching, Symbol table algo- 
rithms 

通过 键 码 比较 的 查找 

by digits of keys 通过 键 码 数字 的 查找 

通过 键 码 转换 的 查找 

for closest match ”对 于 最 接近 的 匹配 的 查找 

for partial match ”对 于 部 分 匹配 的 查找 

查找 几何 数据 

history 关于 查找 的 历史 

查找 方法 , 见 B-trees, Balanced trees, Bi- 


by comparison of keys 


by key transformation 


geometric data 


methods 
nary search, Chaining, Fibonaccian search, Interpo- 
lation search, Open addressing, Patricia, Sequential 
search, Tree search, Trie search 

optimum 最 优 查找 ,也 见 Optimum binary search 
trees, Optimum digital search trees 

parallel 并行 查找 

related to sorting 同 排 序 有 关 的 查找 

text 文本 查找 

two-dimensional 二 维 查 找 

Sears, Richard Warren 西 尔 斯 , 理 查 德 . 沃 伦 

Secant numbers 正 制 数 

二 次 从 集 

Secondary hash codes ”辅助 散 列 码 

Secondary key retrieval 辅 键 码 查 找 

Sedgewick , Robert 塞 奇 维 克 ,罗伯特 

在 一 个 锦标 赛 中 的 种 子 选 


Secondary clustering 


Seeding in a tournament 


手 
Seek time “寻找 时 间 
Sefer Yetzirah 西 费 尔 , 耶 乔 拉 
Seidel ,Raimund 赛 德 尔 , 耶 蒙 德 
t 个 最 大 的 选择 
用 于 选择 i 个 最 大 者 的 网 络 
选择 第 z 个 最 大 者 
用 于 选择 第 t 个 最 大 者 的 网 络 
Selection sorting ”选择 排序 
Selection trees ”选择 树 


Selection of largest 
networks for 
Selection of 上 th largest 


networks for 


自 调整 二 又 树 , 见 Splay 


Self-adjusting binary trees 
trees 


自 - 反 排 列 必 清 , 见 Involu- 


Self-inverse permutations 


tions 
Self-modifying programs 自修 改 程序 
Self-organizing files” 自 组 织 文件 


Selfridge,John Lewis 塞 尔 弗 里 奇 ,约翰 刘易斯 
Senko,Michael Edward 和 森 科 ,迈克尔 ' 爱 德 华 
标志 :放置 在 一 个 表 中 的 一 个 特殊 值 ,被 设 
计 来 以 便 相 伴随 的 程序 容易 地 识别 之 

Separation sorting 分开 排序 
顺序 分 配 
顺序 的 文件 处 理 
顺序 查找 
Sets ,testing equality 测试 集合 是 否 相 等 

testing inclusion 测试 集合 的 包含 关系 
Sevcik ,Kenneth Clem ” 谢 夫 西 克 , 肯 尼 思 : 克 林 
Seward,Harold Herbert ” 西 华 德 , 哈 罗 德 ' 赫 伯 特 
Sexagesimal number system ”十 六 进 制 数 系 
谢 伊 英 尔 ,保罗 :道格拉斯 
Shackleton , Patrick ” 沙 克 尔 顿 ,帕特里克 
Shadow keys 影像 键 码 
Shamir,Ron ” 萨 米尔 , 伦 
Shanks,Daniel Charles ” 香 克 斯 ,丹尼尔 ' 查 尔 斯 
Shannon,Claude Elwood,Jr. 小 香农 , 克 劳 德 . 埃 尔 

伍德 

Shapiro,Gerald Norris 夏 皮 罗 , 杰 拉 德 ' 诺 里 斯 
Shapiro, Henry David 有 夏 皮 罗 , 享 里 . 戴 维 
Shar ,Leonard Eric 沙 尔 , 伦 纳 德 , 埃 里 殉 
Shasha,Dennis Elliott 夏 沙 , 登 尼 期, 埃 尔 里 约 特 
Shearer, James Bergheim ” 谢 里 尔 ,詹姆斯 ' 伯 格 罕 姆 
Sheil, Beaumont Alfred 谢 尔 , 比 奥 里 特 . 阿 尔 弗 雷 德 
Shell ,Donald Lewis 谢 尔 ,唐纳德 .刘易斯 
Shellsort 谢 尔 排序 
Shepp ,Lawrence Alan 谢 波 ,劳伦斯 . 艾 伦 
_Shermar PFilip Martin 一 谢 尔 曼 , 非 利 普 : 马 丁 
Shields, Paul Calvin 西 尔 德 斯 ,保罗 :卡尔 文 
移动 寄存 器 装置 
Shifted tableaux 移动 的 图 表 
Shockley, William Bradford 肖 克 利 ,威廉 ' 布 雷 德 福 


Sentinel 


Sequential allocation 
Sequential file processing 


Sequential search 


Seymour ,Paul Douglas 


Shift-register device 


人 名 和 术语 中 英 对 照 表 


德 

Sholmov, Leonid Ivanovich 肖 尔 莫 夫 , 利 奥 尼 德 . 伊 
凡 诺 维 奇 

Shrairman,Ruth 施 拉 伊 尔 曼 , 鲁 轧 

Shrikhande, Sharadchandra Shankar 
拉 德 钱 德 拉 ' 香 卡尔 

Shuffle network 洗 牌 ( 搅 混 ) 网 络 

Shuffling 洗 牌 ( 搅 混 ) 

SICOMP.: SIAM Journal on Computing , published by 


施 里 元 汉 德 , 萨 


the Society for Industrial and Applied Mathematics 
since 1972 ” 自 1972 年 以 来 由 工程 和 应 用 数学 
学 会 (SIAM) 出 版 的 导报 

Sideways addition ” 旁 路 加 法 

Siegel, Alan Richard 西 格 尔 , 艾 伦理 查 德 

Siegel,Shelby 西 格 尔 , 谢 尔 比 

Sifting 筛选 , 见 Straight insertion 

Siftup ”筛选 

Signed-magnitude notation ” 带 符 号 的 量 的 记号 

带 符号 的 排列 

Silicon Graphics Origin2000 ” 硅 图 形 公 司 独 创 2000 
计算 机 


Silver, Roland Lazarus 


Signed permutations 


西 尔 弗 ,罗兰 . 拉 扎 勒 斯 

Silverstein，Graig Daryl ” 西 尔 弗 斯 坦 , 克拉 伊 格 : 达 
里 尔 

Simon , Istvan Gusztav 


Simulation ”模拟 
Singer, Theodore 


西蒙 , 伊 斯 特 凡 : 古 斯 泽 塔 夫 


辛 格 , 西 奥 多 

Single hashing 单个 散 列 

Single rotation ”单个 转动 

Singieton ,Richard Collom 辛 格 尔 顿 , 理 查 德 科 洛 姆 

Sinking sort 陷入 顺序 ,参见 直接 插入 , 见 Straight in- 
sertion 

Skew heaps 倾斜 堆 

Skip lists ”跳动 表 

Slagle,James Robert 施 拉 格 尔 ,詹姆斯 罗伯特 

SLB (shift left rAX binary) ”SLB( 对 于 rAX 寄存 器 的 
二 进 数 进行 左 移 ) 

Sleator Daniel Dominic Kaplan 
米 尼克 ' 卡 普兰 


Sloane Neii James Alexander 


施 里 亚 托 ,丹尼尔 :多 


斯 隆 , 尼 尔 . 詹 姆 斯 , 亚 
“773 ， 


人 名 和 术语 中 英 对 照 


历 山大 

Shupecki Jerzy 斯 拉 佩 克基 , 杰 齐 

Smallest-in-first-out， 最 小 的 先 出 , 见 Priority queues 

Smith,Alan Jay 史密斯 , 艾 伦 ' 杰 伊 

Smith,Alfred Emanuel 史密斯 , 艾 尔 弗 雷 德 , 伊 曼 纽 
尔 

Smith,Cyril Stanley 史密斯 ,西里 尔 : 斯 坦 利 

Smith, Wayne Earl 史密斯 , 韦 思 : 厄 尔 

Snow Job 扫 积 雪 的 工作 

Sobel, Milton 索 贝 尔 ,米尔 顿 

Sobel,Sheldon ” 索 贝 尔 , 谢 尔 登 

SODA: Proceedings of the ACM-SIAM Symposia on 
Discrete Algorithms,inaugurated in 1990 自 1990 
年 开始 出 版 的 ACM-SIAM 关于 离散 算法 的 讨论 
论文 集 

Software 软件 

单 人 纸牌 戏 ( 美 国 称 作 耐心 ) 

排序 生成 程序 

排序 ( 排 成 顺序 的 ), 见 External 


sorting, Internal sorting, Address calculation sort- 


Solitaire( patience) 
Sort generators 


Sorting( into order) 


ing ,上 numenation sorting, Exchange sorting, inser- 
tion sorting, Merge sorting, Radlx sorting , Selection 
sorting 

适 配 性 程序 

by counting 通过 计数 排序 

by distribution ”通过 分 布 排序 

by exchanging 通过 交换 排序 


adaptive 


by insertion 通过 插入 排序 
by merging 通过 合并 排序 
by reversals 通过 倒转 排序 


by selection 通过 选择 排序 

history 排序 的 历史 

in O(N) steps 在 O(N) 步 内 排序 

排 成 非 寻 常 的 顺序 

methods, 排序 的 方法 , 见 Binary insertion sort， 


into unusual orders 


Bitonic sort, Bubble sort , Cockail-shaker sort, Com- 
parison counting srot, Distribution counting sort, 
Heapsort, lnterval exchange sort, List insertion 


sort, List merge sort, Median-of-three, quicksort, 


“ 7/4 ，: 


Merge enge SE Merge insertion sort, Multi- 


ple list insertion sort, Natural merge sort, Odd-even 
transposition sort, Pratt sort, Quicksort, Radix ex- 
change sort, Radix insertion sort, Ralix list sort, 
Samplesort, Shellsort, Straight insertion sort, 
Straight merger sort, Straight selection sort, Tree 
insertion sort, Tree selection sort, Two way inser- 
tion sort; 也 见 Merge patterns 
用 于 排序 的 网 络 
optimum ”最 优 网 络 
并 行 网 络 
穿孔 卡片 排序 
related to searching 同 查 找 有 关 的 排序 
稳定 排序 
拓扑 排序 
两 行 数 组 排序 
variable-length string 可 变 长 的 串 的 排序 
通过 一 条 带 排序 

通过 两 条 带 排序 
Sos, Vera Turéan Palne 索 斯 , 维 拉 : 特 兰 . 帕 尔 尼 


networks for 


parallel 


punched cards 


stable 
topological 


two-line arrays 


with one tape 


with two tapes 


Soundex 探测 法 

Spacings” 空 隔 , 则 隔 

Sparse arrays“” 稀 朴 数组 

Speedup 加速 , 见 Loop optimization 


拼写 改正 
斯 伯 纳 , 伊 曼 纽 尔 引 理 


Spelling correction 
Sperner, Emanuel, lemma 
外 展 树 


Splitting a balanced tree 


Splay trees 

分 开 探 平衡 树 

斯 普 鲁 格 诺 里 , 伦 佐 

Spruth, Wilhelm Gustav Bernhard 斯 普 鲁 恩 ,威廉 . 古 
斯 塔 夫 . 们 恩 合 德 

Spuler,David Andrew ”斯 普 勒 尔 , 戴 维 ' 安 德 鲁 

SRB(shift right rAX binary) SRB( 右 移 寄 存 器 rAX 


Sprugnoli ,Renzo 


中 的 二 进 数 ) 
Stable sorting ”稳定 排序 
Stacks 栈 


Stacy,Edney Webb 斯 塔 西 , 埃 德 尼 :. 维 布 

Stagl-Holstein, Anne Louise Germaine Necker, Baronne 
de 斯 塔 耶 尔 - 霍 尔 斯 坦 安 妮 . 路 易 斯 ' 杰 曼 尼 科 
尔 , 巴 伦 : 德 


Standard networks of comparators “比较 器 的 标准 网 
络 

Stanfel,Larry Eugene 斯 坦 非 尔 , 拉 里 : 尤 金 

斯 坦 利 , 理 查 德 彼 得 

Stasevich, Grigory Vladomirovich ”斯 塔 西 维 奇 , 格 里 
臣 利 , 弗 拉 多 米 罗维奇 

Stasko,John Thomas ”斯 塔 斯 科 ,约翰 :托马斯 

Static table searching 静态 表 查 找 

Stearns,Richard Edwin 斯 特 恩 期 , 理 查 德 . 埃 德 温 

Steiner,Jacob 斯坦 纳 , 雅 各 布 

斯 坦 纳 三 元 组 系统 

Steinhaus ,Hugo Dyonizy 斯 坦 察 斯 , 雨 果 . 戴 奥 尼 齐 

往 下 走 

Stevenson ,David 斯 蒂 文 森 , 戴 维 

斯 特 林 ,詹姆斯 

approximation ”斯 特 林 近似 

斯 特 林 数 

STOC: Proceedings of the ACM Symposia on Theory 
of Computing ,inaugurated in 1969 1969 年 创刊 
的 计算 理论 讨论 会 论文 集 

Stockmeyer,Paul Kelly 斯 托 克 迈 耶 ,保罗 .凯利 

斯 通 , 哈 罗 德 斯图尔特 

停止 /开始 时 间 

Stoyanovskii, Alexander Vasil’ evich 斯 托 亚 诺 夫 斯 
基 , 阿 历 山 大 : 瓦 西 列 维 奇 

直接 插入 排序 
直接 合并 排序 
直接 选择 排序 

分 层 树 

施 特 劳 斯 , 厄 轧 斯 特 . 加 博 尔 

串 : 有 序 的 小 序列 , 见 


Stanley, Richard Peter 


Steiner triple systems 


Stepdowns 


Stirling ,James 


numbers 


Stone, Harold Stuart 


Stop/start time 


Straight insertion sort 
Straight merge sort 

Straight selection sort 
Stratified trees 
Straus, Ernst Gabor 


Strings: Ordered subsequences 


Runs 
Strings:Sequences of items 串 :项 的 序列 
recurrence relations for 串 的 递归 关系 


sorting “对 串 排 序 
Striping 条 带 
Strong ,Hovey Raymond,Jr. 小 斯 特 朗 , 霍 维 . 赖 蒙 德 
-先进 先 出 树 
Successful searches 成 功 的 查找 
Sue,Jeffrey Yen 肖 智 仁 


Strongly T-fifo trees 


人 名 和 术语 中 英 对 照 


Suel, Torsten 舒 尔 , 托 尔 斯 合 
Sugito, Yoshio 杉 腾 芳 雄 
Sum of uniform deviates ”均匀 离 差 的 和 
Summation factor 求 和 因子 

Sun SPARCstation SUN 公司 SPARC 工作 站 
Superblock striping ”超级 块 (区 组 ) 分 条 带 

超 阶 乘 

合 加 的 编码 
Surnames,encoding ”对 姓氏 编码 
Sussenguth, Edward Henry ,Jr. 


“ 享 里 


Superfactorials 


Superimposed coding 


小 了 萨 森 古 思 , 爱 德 华 


SO , Stanislaw Slawomir 
基 ,斯 塔 尼 斯 洛斯 拉 沃 米尔 

斯 威夫 特 ,乔纳森 

Sylvester,James Joseph ”斯 威 尔 斯 特 , 镶 姆 斯 :约瑟夫 


斯 怀 切 柯 夫 斯 


Swift ,Jonathan 


Symbol table algorithms 符号 表 算 法 
Symmetric binary B-trees 对 称 二 又 B- 树 
Symmetric functions ”对称 函数 


Symmetric group 对 称 群 , 见 Permutations 

Symmetric order: Left subtree, then root, then right 
对 称 顺序 : 左 小 树 ,然后 根 , 然 后 右 子 树 
辫 姆 沃 尼斯 , 安 托 尼 奥 斯 

排序 算法 

泽 克 勒 斯 ,乔治 

斯 泽 默 勒 迪 ,恩德 雷 
Szpankowski, Wojciech ”斯 泽 盘 柯 夫 斯 基 , 沃 伊 切 彻 
下 先进 先 出 树 

strongly 强人 先进 先 出 树 

全 后 进 先 出 树 

Tableaux 图表 

Tables 表格 


of numerical quantities 


subtree 
Symvonis, Antonios 
SyncSort SyncSort 
Szekeres, George 


Szemerédi Endre 
下 -fifo trees 


T- lifo trees 


数值 量 表 
Tag sorting 标记 排序 , 见 Keysorting 
尾部 不 等 式 

泰 尼 特 : 默 尔 文 
塔 卡 斯 " 拉 乔 斯 
Talagrand,Michel 塔 拉 格 兰 德 ,迈克 和 尔 
玉 置 惠子 

塔 马 里 多 夫 
Tamminen,Markku 坦 姆 米 能 ,马克 库 
. 775 ， 


Tail inequalities 
Tainiter , Melvin 


Takacs, Lajos 


Tamaki, Jeanne Keiko 


Tamari Dov 


人 名 和 术语 中 英 对 照 表 





Tan Kok Chye 陈 国 财 

Tangent numbers 正切 数 

Tanner,Robert Michael 坦 纳 尔 , 罗 伯 特 .迈克尔 
Tanny,Stephen Michael 坦 尼 ,斯蒂芬 .迈克 和 尔 
Tape searching 带 的 查找 

Tape splitting ” 带 的 分 开 

多 阶段 合算 时 带 的 分 开 
Tapes 带 , 见 Magnetic tapes 

Tardiness ”缓慢 ,拖延 

Tarjan ,Robert Endre 塔 简 ,罗伯特 :恩德 利 
Tarter, Michael Ernest 塔塔尔 ,迈克 尔 ' 欧 内 斯 特 
Tarui,Jun 垂 井 淳 


Telephone directories 


polyphase merge 


电话 目录 

Tengbergen ,Cornelia van Ebbenhorst ”了 茧 伯 金 , 柯 尼 里 
亚 ' 范 ' 埃 布 本 霍 斯 特 

网 球 锦 标 赛 

Terabyte sorting 太 拉 (107) 字 节 排 序 

三 又 比较 树 


‘Tennis tournaments 


Ternary comparison trees 

三 叉 堆 

Ternary trees for tries “检索 结构 的 三 叉 树 

Terquem,Olry 特 奎 姆 , 奥 里 

Tertiary clustering 第 三 级 从 集 

Testing several conditions 测试 若干 条 件 

Teuhola ,Jukka llmari ” 提 欧 霍 拉 , 朱 克 卡 ' 伊 尔 马 里 

TeX TeX 系统 (本 书 作者 开发 的 排版 系统 ) 

Text searching ”文本 查找 

理论 满足 实践 需求 

Thiel ,Larry Henry 蒂 尔 , 拉 里 ,亨利 

Thimbleby,Harold William 带 姆 伯 利 比 , 哈 罗 德 ' 威 
廉 

Thimonier,Loys 东 莫 尼 尔 , 罗 伊 斯 

Thorup,Mikkel 托 拉 普 , 密 克 尔 

Thrall, Robert McDowell 恩 罗 尔 ,罗伯特 "迈克 多 维 
尔 

Threaded trees ”穿线 树 

Three-distance theorem ”三 距离 定理 

三 格 基数 快速 排序 , 见 


Ternary heaps 


Theory meets practice 


Threeway radix quicksort 
Multikeyquicksort 
Thue, Axel 瑟 伊 , 阿 塞 尔 

trees ” 巷 伊 树 


770 ， 


出 边 标 目 

Thurston William Paul 瑟 尔 斯 通 ,威廉 .保罗 
Tichy, Robert Franz 蒂 齐 ,罗伯特 ， 弗 并 效 
Tie-breaking trick ”打破 平局 的 技巧 

Ting-Tze Ching 丁子 锦 

Tobacco 烟 

Togetherness ”在 一 起 性 


Tomlinson, Robert L. , Jr. 


Thumb indexes 


小 汤姆 林 和 森 , 罗 伯 特 'L 

Topological sorting ”拓扑 顺序 

Total displacement ”总 偏离 

Total order 全 序 

总 方差 

Touchard,Jacques ” 塔 查 德 ,雅克 

Tournament ”锦标赛 

Townsend Gregg Marshall 

Trabb Pardo ,Luis Isidoro, 
西 多 罗 

Tracks 道 

Trading tails ”尾部 交易 

Transitive Law 传递 律 

Transpose of a matrix 一 个 矩阵 的 转 置 

Transposition sorting “ 转 置 排序 , 见 Exchange sorting 


特 里 德 维 , 简 尼 夫 尔 安 


Total variance 


汤 森 德 ' 格 里 格 ' 马 软 尔 
特 拉 布 `' 帕 多 ,路易 斯 ' 埃 


Treadway ,Jennifer Ann 
Treaps 树 堆 

Tree function T(z) 
Tree hashing ” 树 数 列 
Tree insertion sort ” 树 插 入 排序 

Tree network of processors ”处 理 器 网 络 

算法 的 树 形 表示 ， 


树 函 数 


Tree representation of algorithms 
见 Decision trees 

Tree representation of distribution Patterns 分 布 模式 
的 树 形 表示 

Tree nepresentation of merge patterns 合并 模式 的 树 
形 表示 

Tree search” 树 查 找 

generalized 推广 的 树 查 找 

Tree selection sort ” 树 选 择 排序 

Tree traversal 树 遍 历 

Trees 树 


Treesort ” 树 排 序 , 见 Tree selection sort, Heapsort 


人 名 和 术语 中 英 对 照 表 





Tribolet ,Charles Siegfried 特 里 博 勒 特 , 查 尔 斯 ` 西 格 
弗 里 德 

Trichotomy law ” 特 里 巧 托 米 定律 

Tricomi, Francesco Giacomo Filippo 
西 斯 戈 . 吉 亚 柯 莫非 里 波 

Trie memory 检索 结构 存储 , 见 Tries 

Trie search ”检索 结构 查找 

Tries 检索 结构 

二 分 检索 结构 

compressed 压缩 检索 结构 

generalized 广义 检索 结构 

多 维 检索 结构 

最 优 检索 结构 

表示 为 森林 的 检索 结构 

表示 为 三 义 树 的 检索 


特 里 柯 米 , 弗 明 


binary 


multidimensional 
optimum 
represented as forests 


represented as ternary trees 


结构 


Tripartitioning ”三 分 划 
Triple systems ”三 元 组 系统 
Triply linked trees 三重 链接 树 


特 罗 特 , 威 廉 :托马斯 
特 罗 斯 , 吉 思 -迈克 尔 
Truesdell, Leon,Edgar 特 鲁 斯 代 尔 ,里昂 . 埃 德 加 
Truncated octahedron ”截断 的 八 边 形 
Trybula, Stanislaw ” 特 里 布 拉 , 斯 坦 尼斯 劳 

塔 克 , 艾 伦 ' 柯 提 斯 
滚 进 指令 
Turba ,Thomas Norbert 图 尔 巴 ,托马斯 .诺尔 伯 特 
图 灵 , 艾 伦 : 马 西 森 


Trotter, William Thomas 


Trousse, Jean- Michel 


Tucker, Alan Curtiss 


Tumble instruction 


Turing, Alan Mathison 
图 灵机 
Turski, Wladyslaw 


machine 

图 尔 斯 基 ,乌拉 迪 斯 洛 

Twain Mark( = Clemens, Samuel Langhorne) 
“马克 (= 克利 门 斯 , 萨 比 尔 : 朗 瞧 尔 尼 ) 

Twin heaps 挛 生 堆 

挛 生 质数 

Two-line notation for permutations ”排列 的 双 行 记号 

Two-tape sorting ” 双 带 排序 

Two-way branching 两 路 转移 

两 路 插 人 排序 

Two-way merging 两 路 合并 


Two’s complement notation 2 的 补 码 表示 


特 威 恩 


Twin primes 


Two-way insertion sort 


i 


U,(n)and U,(n) U,(n) 和 U, (2 ) 困 数 
Ullman ,Jeffrey David 厄 尔 曼 , 杰 弗 里 ' 戴 维 
UltraSPARC computer Ultra 公司 的 SPARC 计算 机 
删 去 时 的 下 洲 
Uniform binary search 均匀 的 二 分 查找 
均匀 分 布 
一 致 探查 
一 致 排序 
Unimodal function 单 模 型 水 数 
UNIVAC ] computer UNIVAC 工 计算 机 
UNIVAC 下 computer UNIVAC 卫 计算 机 
UNIVAC LARC computer UNIVAC LARC 计算 机 
Universal hashing 万 能 散 列 ,普通 散 列 
UNIX operating system UNIX 操作 系统 
不 可 靠 的 比较 

不 成 功 的 查找 

非 寻 常 的 对 应 
更 狐 二 个 文件 
乌 泽 加 里 斯 .罗伯特 


Underflow during deletions 


Uniform distribution 
Uniform probing 


Uniform sorting 


Unreliable comparisons 

Unsuccessful searches 

Unusual correspondence 

Updating a file 

Uzgalis,Robert 

Vi(n)and V,(n) Www(Cz) 和 V(2) 函 数 

沃 里 , 布 利 吉 特 

Van der Pool,Jan Albertus 范 . 德 .普尔 , 简 : 艾 们 塔 
斯 

van Ebbenhorst Tengbergen, Gornelia 
斯 特 ' 芯 们 金 , 苹 尼 利 亚 

范 ' 埃 姆 登 . 博 亚 斯 ,彼得 

van Emden,Maarten Herman 范 . 埃 姆 登 ,马尔 登 . 赫 
尔 曼 


van Leeuwen ,Jan 


Vallée, Brigitte 


范 ' 埃 布 本 霍 


van Emde Boas, Peter 


范 : 刘 文 , 简 

van Leeuwen, Marcus Aurelius Augustinus 
马尔 库 斯 . 奥 利 刘 斯 * 奥 古 斯 蒂 内 斯 

范 . 林 特 , 雅 各 布 斯 . 享 


范 ' 刘 文 ， 


van Lint,Jacobus Hendricus 
德里 沙 斯 

Van Valkenburg, Mac Elwyn 
X 

Van Voorhis, David Curtis 范 ` 沃 勒 斯 , 戴 维 . 柯 带 斯 

van Wijngaarden,Adriaan 范 : 维 固 加 尔 登 , 艾 德 里 安 

范 德 蒙特 , 亚 历 


范 ` 沃 肯 伯 格 , 麦 克 : 欧 


Vandermonde, Alexandre Théophile 
山大 : 西 奥 菲 尔 


BA 


人 名 和 术语 中 英 对 照 


范 德 蒙 德 行列 式 

可 变 长 代码 

Variable-length keys, searching for 
长 键 但 


Variable-length records 


determinant 
Variable-length code 
用 于 查找 的 可 变 


可 变 长 记录 

变 长 字符 串 程 序 
变量 的 不 同 记号 
合并 模式 的 


Variable-length strings , sorting 

Variance, different notions of 

Vector representation of merge Patterns 
向 量 表示 

Velthuis, Frans Jozef 维尔 瑟 尤 斯 ' 弗 朗 斯 . 乔 泽 夫 

维 恩 , 维 翰 : 伦 纳 德 

Vershik, Anatoly Moiseevich 维尔 锡 克 , 安 纳 托 里 . 黄 
伊西 维 奇 

Viennot ,Gerard Xavier 维 诺 特 , 杰 加 德 . 扎 维尔 

Viola Deambrosis, Alfredo” 维 奥 拉 : 迪 亚 姆 布 罗 西 斯 ， 
阿尔 弗 雷 多 

Virtual memory ”虚拟 存储 器 

维特 尔 , 杰 弗 里 ' 斯 苹 特 ( 魏 杰 


Venn, John Leonard 


Vitter ,Jeffrey Scott 


甫 ) 
von Mises, Richard, Edler 汉 : 米 塞 斯 , 理 查 德 , 埃 德 
勒 


von Neumann ,John( = Margittai Neumann Jinos 六 . 
诺 伊 曼 .约翰 (= 玛 奇 特 泰 . 诸 伊 曼 ' 买 诺 斯 ) 

VSAM VSAM( 虚 拟 存储 存 取 方法 ) 

Vuillemin,Jean Etienne 武 伊 尔 勒 明 , 琼 * 埃 递 恩 尼 

Vyssotsky,Victor Alexander 维 索 特 斯 基 , 维 克 多 :' 亚 
历 山 大 

W,(n) and W,(n) W,(n) 和 W,(n) 函 数 

Wachs,Michelle Lynn 活 彻 斯 , 迈 彻 利 林 

Waks,David Jeffrey 威 克 斯 , 戴 维 . 杰 弗 里 

Waksman, Abraham 瓦 克 斯 曼 , 亚 布 拉 罕 

Walker,Ewing Stockton 沃克 , 尤 因 .斯 托 克 屯 

Walker, Wayne Allan 沃克 , 韦 因 . 艾 伦 

Wallis,John 沃 里 斯 ,约翰 

Walters ,john Rodney ,Jr. 

Wang,Ya Wei 王 亚 威 

Wang,Yihsiao 王 义 孝 

Ward,Morgan 沃 德 ,摩根 

Waters,Samuel Joseph 沃 特 斯 , 塞 织 尔 :约瑟夫 
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小 沃尔特 斯 ,约翰 ' 罗 德 尼 


Watanabe, Masatoshi 


Waugh, Evelyn, Arthur St. John 
圣 约翰 

Weak Bruhat order 

Wedekind, Hartmut 


维 克 ' 布 鲁 哈 特 顺序 

韦 得 金 德 , 哈 特 马 特 
Wegener, Ingo Werner 维 吉 纳 尔 , 印 艾 ' 维 尔 纳 
Wegman,Mark N _ 维 格 曼 ,马克 :N 
Wegner,Lutz Michael 维 格 纳 , 卢 特 兹 :迈克 尔 
加 权 平 衡 树 
Weighted path length 加权 通路 长 度 
韦 斯 纳 . 路 易 斯 

韦 斯 ,本杰明 
Weiss Harold 韦 斯 * 哈 罗 德 
Weiss, Mark Allen 韦 斯 ,马克 ' 艾 伦 
Weissblum, Walter 韦 斯 布 卢 姆 ,沃尔特 
Wells,Mark Brimhall 威尔士 ,马克 ' 布 里 姆 霍 尔 
韦 斯 纳 , 拉 塞 尔 ' 李 
沃 勤 温 德 计算 机 
Whitlow,Duane L 韦 特 罗 , 瑞 尼 :.L 
Wiedemann,Douglas Henry 韦 伊 递 曼 ,道格拉斯 . 亭 

利 


Wiener, Norbert 


Weight-balanced trees 


Weisner, Louis 


Weiss, Benjamin 


Wessner, Russell Lee 
Wheeler ,David John 


Whirlwind computer 


韦 伊 纳 , 庄 伯 特 

Wigram,George Vicesimus 韦 格 拉 姆 ,乔治 : 维 斯 西 
姆 斯 

Wijngaarden, Adriaan van 

Wiles, Andrew John 维 里 斯 ,安德鲁 .约翰 

Wilf, Herbert Saul 维尔 夫 , 硕 尔 们 特 ' 绍 尔 

Willard,Dan Edward 维尔 拉 德 , 丹 爱 德 华 

Williams, Francis A. ,Jr. 小 威廉 斯 ,弗朗西斯 "A 

威廉 逊 ,斯 坦 利 ` 吉 和 尔 

Wilson ,David Bruce 威尔逊 , 戴 维 . 布 鲁 斯 

温 得 利 ,彼得 . 弗 明 西 斯 

Winkler,Phyllis Astrid Benson 温 克 勤 , 菲 利 斯 , 阿 斯 
特 里 德 . 本 和 森 

Wong,Chak-Kuen 黄 泽 权 

Wood,Derick 伍德 ,德里 元 

Woodall, Arthur David 伍德 尔 , 阿 瑟 . 戴 维 

Woodrum,Luther Jay 伍德 朗 姆 , 卢 瑟 . 杰 伊 

Wormald,Nicholas Charles ” 沃 马 德 ,尼古拉斯 ' 查 尔 
斯 


维 因 加 尔 登 , 艾 德 里 安 : 范 


Williamson ,Stanley Gill 


Windley ,Peter Francis 


Wrench,John William ,Jr. 小 伦 奇 ,约翰 :威廉 
Wright Edward Maitland 赖 特 , 爱 德 华 . 梅 特 兰 
Wu Jigang 武 继 刚 
Wyman,Max 怀 曼 ,马克 斯 
Yao, Andrew Chi-Chih 姚 期 智 
Yao, Frances Foong Chu 姚 储 枫 
Yoash ,Nahal Ben 约 亚 斯 , 纳 哈 尔 : 本 
Pseudonym of Gideon Yuval 吉 迪 安 : 尤 瓦尔 的 假名 
Youden,William Wallace 尤 登 ,威廉 : 华 莱 土 
Young,Alfred 杨 , 阿 尔 弗 雷 德 
tableaux 杨 氏 图 表 
Young,Frank Hood 杨 ,法 兰 克 : 胡 德 
Yuba Toshitsugu 马场 敏和 抽 
Yuen, Pasteur Shih Teh 袁 师 德 
Yule,George Udny 尤 利 ,乔治 :' 尤 德 尼 
distribution ” 尤 利 分 布 
Zalk ,Martin Maurice 扎 克 ,马丁 :英里 斯 
Zave,Derek Alan 扎 夫 ,德里 克 . 艾 伦 


人 名 和 术语 中 英 对 照 表 


Zeckendorf ,Edouard 泽 肯 多 夫 , 埃 多 瓦 德 

Zeilberger, Doron 泽 尔 伯 格 ,多 伦 

Zero-one principle 0-1 原理 

Zeta function 5(z) “项 数 

Zhang,Bin 张 斌 

Zhang,Linbo 张 林 波 

Zhu,Hong 朱 洪 

Zigzag paths 弯曲 道路 ,也 见 Lattice paths 

Zijlstra, Erik 吉尔 斯 特 拉 , 埃 里 克 

Zipf,George Kingsley 泽 弗 ,乔治 : 金 斯 利 
distribution ” 泽 弗 分 布 

Ziviani, Nivio 泽 雅 亚 尼 , 尼 维 奥 

Zoberbier, Werner 佐 贝 尔 比尔 ,维尔 纳 

Zodiac ” 佐 迪 亚 克 

Zolnowsky,John Edward ” 佐 诺 斯 基 : 约 翰 . 爱 德 华 

Zuse, Konrad 朱 斯 ` 康 拉 德 

Zweben,Stuart Harvey 泽 维 本 : 史 图 瓦特 . 哈 维 

Zwick,Uri 泽 维 殉 , 尤 里 


Although you may pass for 
an artist, computist, or analyst, 
yet you may not be justly esteemed 


a man of science. 


尽管 你 作为 一 名 艺术 家 、 计 算 家 或 分 析 家 可 能 是 合 攀 的 ， 


但 你 未 必 和 能 说 公正 她 章 为 一 位 科学 家 。 


一 CEORGE BERKELEY, The Analyst (1734) 
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本 书 是 国内 外 业界 广泛 关注 的 《计算 机 程序 设计 艺术 ?第 3 卷 的 最 新 版 。 本 
卷 全 面 考 察 了 经 典 计算 机 排序 和 查找 技术 。 它 扩充 了 第 1 卷 对 数据 结构 的 处 
理 ,以 将 大 小 数据 库 和 内 外 存储 器 一 并 考虑 ;入选 了 经 精心 核验 的 计算 机 方法 ， 
并 对 其 效率 做 了 定量 分 析 。 本 卷 的 突出 特点 是 对 “最 优 排 序 ” 一 市 的 修订 和 对 排 
列 论 与 通用 散 列 法 的 讨论 。 

本 书 附 有 大 量 习 题 和 答案 ,标明 了 难 易 程 度 和 数学 概念 的 使 用 。 

本 书 内 容 精辟 ,语言 流畅 ,引人入胜 ,可 供 从 事 计 算 机 科学 及 相关 学 科 的 工 
作 人 员 参 考 .研究 和 借鉴 ,也 是 相关 专业 高 等 院 校 的 理想 教材 和 教学 参考 书 。 

本 次 印刷 已 根据 http://sunburn. stanford. edu/”knuth/taocp. html 上 的 最 新 
勘误 表 ( 截 止 到 2003 年 1 月 25 日 ) 校 正 了 原版 书 中 的 错误 。 
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Chart A. Tape merging. 


Legend 


CZ Reading in forward direction 
ECSI Reading in backward direction 
PE Writing in forward direction 
C7 Rewinding in backward direction 
[E56] Operator changing tapes 
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00 1 01 2 02 | 2 | 0 10 

无 控 作 TA< TAT+YV rA<rA-YV rAX<rAxYVY 

ADD(0:5) SUB(0:5) MUL(0:5) 

NOP(0) FADD( 6) FSUB(6) FMUL(6) 

rA<—V TI[1< 一 V rl2<—V rl3<—V 

LDA(O0:5) LD1(0:5) LD2(0:5) LD3(0:5) 

TA< 一 V r[1< 一 一 V Trl2<- — T[3< 一 一 V 
LDAN(0:5) LDIN(0:5) LD2N(0:5) LD3N(0:5) 
M(F)<—rA M(F)<—rll M(F)<—r]l2 M(F)<—rl3 
STA(0:5) ST1(0:5) ST2(0:5) ST3(0:5) 

32 2 33 2 一 ~ 34 7 35 1+T 

M(F)<—1]J M(F)<-0 设备 下 忙碌 吗 ? 控制 ,设备 下 
STJ(0:2) STZ(0:5) JBUS(0) IOC(0) 

40 了 41 了 42 了 43 了 
rA:0, 转 移 r[1:0, 转 移 r13:0, 转 移 
JA| + | Jl| + J3| + | 
rA<—|[rAj]?+M rll<—|[rll]?+M r[2<—| rl2]?+M rl3<—| rl3]?+M 
INCA(0) DECA(1) INC1(0) DEC1(1) INC2(0) DEC2(1) INC3(0) DEC3(1) 
ENTA(2) ENNA(3) ENT1(2) ENN1(3) ENT2(2) ENN2(3) ENT3(2) ENN3(3) 

$6 2 $7 2 $8 2 S9 2 
ee CI<—rI1(F):V CI<—r2(F):V CI<—rl3(F):V 

PCMP( 6) CMP1(0:5) CMP2(0:5) CMP3(0:5) 

一 般 形式 C= 操作 码 ,指令 的 (5:5) 字 段 


F= 操作 码 的 变形 ,指令 的 (4:4) 字 上 段 
M= 变 址 后 的 指令 地 址 

V = M(F) = 单元 M 的 下 字段 的 内 容 
OP = 操作 的 符号 名 

(F) = 标准 的 上 议定 

1= 执行 时 间 7= 互 锁 时 间 
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W > < 5S 六 
04 71% 04 10 | 06 2 07 T+ 2F 
rAX<rAX/V 特殊 的 | 移 位 M 个 字 节 ee 
MX< 余数 ee | sLA(0) SRA(1) 从 FF 
DIV(0:5) CHAR(1) SLAX(2) SRAX(3) Ne 
FDIV(6) 的 三 (2 Se 
一 一 一 
12 2 13 2 14 | 2 15 | 
rl4<—V rlI3<—V rl6<—V | IX<—V 
Lr Os) LD5(0:5) LD6(0:5) | LDX(0:5) 
20 | 2 21 2 22 。 23 | 过 | 
rl4<——V T]9< 一 一 V rl0<——V TX< 一 V | 
LDAN(0:5) LD5N(0:5) LD6N(0:5) | 下 本 人 二) | 
» [23| » 2| wm |2 a [2 
M(F)<—rl4 M(F)<—rlS M(F)<—rl6 M(F)<—rX | 
STA(0:5) SO ST6(0:5) oTX(0:S) 
30 了 + 了 37 | Pa eh 38 了 39 了 
， 转移 
输入 ,设备 下 输出 ,设备 下 设备 下 就 绪 ? JMP(0) JSJ(1) 
IN(0) COUT JRED(0) JoOv(2)UNOV(3) 
还 有 下 边 的 [ * | 
44 47 1 
rl4:0, 转 移 rl5:0, 转 移 rl6:0, 转 移 rX:0, 转 移 
a a J5[ + | J6| + | spa 
$4 





rl4<—| rl41?t+M 
INCA(O0) DECA( 1) 
ENT4(2) ENN4(3 ) 


60 2 


CI<—rl4(F):V 
CMP4(0:5) 








[从 
rX = 寄存 器 色 


rAX = 寄存 器 A 和 X 当做 一 个 


rl = 变 址 寄存 器 .1 和 ;入 6 
可 
= 比较 指示 红 









rI$<-| rl5|]?+M 
INC5(0) DEC5(1) 
ENT5(2) ENNS(3) 


61 < 


CI<—rlS(F):YV 
CMP5(0:5) 





[Lx] [+ 











JE(5) = 


rl6<—| rl61]? + M 
INC6(0) DEC6(1) 
ENT6(2) ENN6(3) 


02 2 


CI<—rl6(F):VY 
CMP6(0:5) 
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a ea 
2 


2 








rX<—|rX|]?+M 
TC DC LT) 
ENTX(2) ENNX(3 ) 


03 4 





CI<—rX(F):V 


CMPX(0:5) | 
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第 1 卷 / 基 本 算法 (第 3 版 ) 

从 书 第 1 卷 以 基本 的 程序 设计 概念 和 技术 开 
始 , 然后 专注 于 信息 结构 一 一 计算 机 内 部 信 
上 息 的 表示 、 数 据 元 素 之 间 的 结构 关系 及 其 有 
效 处 理 方法 。 描 述 了 模拟 、 数 值 方法 、 符 号 
计算 、 软 件 与 系统 设计 的 初等 应 用 。 新 版 本 
增加 了 几 十 项 简单 但 重要 的 算法 和 技术 ,并 
对 有 关 数 学 预备 知识 做 了 大 量 修正 以 适应 现 
时 研究 的 趋向 。 





第 2 卷 /半数 值 算法 (第 3 版 ) \ 

第 2 卷 对 半数 值 算法 领域 做 了 全 面 介绍 ， 分 
“随机 数 ” 和 “算术 ”两 章 。 本 卷 总 结 了 主要 
算法 范例 及 这 些 算法 的 基本 理论 ， 上 泛 剖 析 
了 计算 机 程序 设计 与 数值 分 析 间 的 相互 联系 。 
第 3 版 中 特别 值得 注意 的 是 Knuth 对 随机 数 
生成 程序 的 重新 处 理 和 对 形式 寡 级 数 计 算 的 
讨论 。 


第 3 卷 /排序 和 查找 (第 2 版 ) 

第 3 卷 的 头 一 次 修订 对 经 典 计算 机 排序 和 查 
找 技术 做 了 最 全 面 的 考察 。 它 扩充 了 第 1 卷 
对 数据 结构 的 处 理 ， 以 将 大 小 数据 库 和 内 外 


_ 存储 器 一 并 考虑 ; 遵 选 了 精心 核验 的 计算 机 
方法 ， 并 对 其 效率 做 了 定量 分 析 。 第 3 卷 的 
突出 特点 是 对 “最 优 排序 ”一 节 的 修订 和 对 
排列 论 与 通用 散 列 法 的 讨论 。 








计算 机 科学 /程序 设计 
它 本 来 是 作为 参考 书 撰写 的 ， 但 有 人 却 发 现 每 一 卷 都 可 以 岷 有 兴致 地 从 头 读 到 尾 。 一 位 中 国 的 程序 
员 甚至 把 他 的 阅读 经 历 比 做 读 诗 。 


如 果 你 认为 你 确实 是 一 个 好 的 程序 员 , 读 一 读 Knuth 的 《计算 机 程序 设计 艺术 》 吧 ， 要 是 你 真 把 它 读 
通 了 , 你 就 可 以 给 我 递 简历 了 。 Bill Gates 





这 一 鸿 篇 巨制 被 广泛 誉 为 对 经 典 计算 机 科学 的 权威 描述 ， 头 三 卷 在 几 十 年 来 一 直 是 学 生 、 研 究 人 员 
和 业内 人 士 的 无 价 财富 。 - 


一 部 所 有 基础 算法 的 宝典 ,今天 的 许多 软件 开发 者 关于 计算 机 程序 设计 的 绝 大 多 数 知识 都 是 从 该 宝 
典 中 获得 的 。 一 一 Byte, September 1995 

不 计 其 数 的 读者 深 受 Knuth 著 作 的 影响 。 科 学 家 们 惊讶 于 他 的 分 析 的 精美 与 雅致 , 而 普通 程序 员 每 天 
都 从 其 提供 的 “菜谱 ”中 获得 问题 解决 方案 。 书 的 恢宏 、 透 彻 、 精 确 与 幽默 赢得 了 所 有 人 的 尊敬 。 

我 无 法 描述 它们 在 我 学 习 和 娱乐 中 伴 我 度 过 的 愉悦 时 光 。 我 在 车 里 ， 在 餐馆 里 ， 在 家 里 .…… 甚 至 在 
我 儿子 棒球 小 联赛 的 间隙 都 忘 不 了 带 上 它们 , 一 有 空 就 捧 出 来 阅读 。 一 一 Charles Long 

不 管 你 基础 如 何 , 倘若 你 想 认 真 地 编写 任何 计算 机 程序 , 你 ge 理由 把 这 套 书 的 任何 一 卷 抱 回 家 , 以 
便 在 你 学 习 和 工作 的 时 候 随 时 翻阅 。 


要 是 有 一 个 问题 难 到 要 把 Knuth 的 著作 请 下 书架 ， 那 就 太 令 人 愉悦 了 。 我 发 现 ， 人 们 只 要 翻 二 逢 它 ， 
就 会 对 计算 机 产生 极其 有 用 的 令 人 “ 鸡 懂 ”的 影响 。 Jonathan Laventhol 





为 反映 该 领域 的 最 新 发 展 , Knuth 二 十 多 年 来 第 一 次 将 三 卷 书 全 部 做 了 修订 。 他 的 修订 主要 集中 在 上 
一 版 以 来 趋 于 一 致 的 知识 ,已 经 解决 的 问题 以 及 有 所 变化 的 问题 。 为 保持 本 书 的 权威 性 ， 关 于 该 领域 先 
驱 工 作 的 历史 信息 都 做 了 更 新 。 为 维护 作者 苦心 孤 讶 追求 至 善 至 美的 盛誉 , 新 的 版 本 将 敏锐 和 苛刻 的 读者 
发 现 的 少量 技术 错误 都 做 了 更 正 。 增 加 了 上 百 的 新 习题 ， 对 您 也 是 新 的 挑战 。 
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